Make your
Business grow.
robots.txt
Eine robots.txt ist eine Datei, die Informationen über die Webseite für Suchmaschinen enthält. Wird eine Webseite von einem Suchmaschinencrawler gelesen, überprüft dieser zunächst, ob eine robots.txt vorliegt. Hier findet er beispielsweise Informationen, welche Inhalte der Crawler lesen darf.
Eine robots.txt ist ein Standardtextdokument, dass mit jedem einfachen Textprogramm wie beispielsweise dem Texteditor von Windows erstellt werden kann. Hier kannst du eine robots.txt herunterladen.
Eine robots.txt kann ganz einfach aufgerufen werden:
www.beispiel.de/robots.txt
Die Datei liegt im sogenannten Stammverzeichnis (Root). Ersetze www.beispiel.de durch die URL der Webseite. Über https://growbility.de/robots.txt kannst du auf die robots.txt dieser Webseite zugreifen.
In seiner einfachsten Form enthält eine robots.txt folgende Einträge:
1 # Beispiel einer robots.txt
2 User-agent: *
3 Disallow:
Die erste Zeile enthält lediglich ein Kommentar. Das erkennst du an dem #-Zeichen zu Beginn. Mithilfe von Kommentaren dokumentieren Programmierer ihren Code. Suchmaschinen lesen diesen Inhalt nicht.
Die zweite Zeile enthält die Information, an welchen Webcrawler die Anweisung adressiert ist. In diesem Fall ist ein * eingetragen, womit die nachfolgende Anweisung für alle Bots, die die Webseite lesen, gültig ist.
In Zeile drei steht nun der eigentliche Befehl „Disallow“. Nach diesem folgen die Verzeichnisse, auf die der Webcrawler nicht zugreifen darf. In unserem Beispiel steht hier kein Eintrag. Der Crawler erhält also Zugriff auf alle Inhalte der Webseite.
Weitere mögliche Inhalte einer robots.txt
Die nachfolgende Tabelle zeigt dir Beispiele für weitere Inhalte:
Anweisung | Beispiel | Funktion |
---|---|---|
User-agent: | User-agent: Googlebot | Die Anweisung ist nur für den Googlebot bestimmt. |
Disallow: | Disallow: /temp | Das Verzeichnis /temp wird blockiert. |
Disallow: | Disallow: / | Die komplette Webseite wird blockiert. |
Disallow: Allow: | Disallow: /files Allow: /files/*.pdf$ | Das Verzeichnis /files wird blockiert, Dateien mit der Endung „.pdf“ sind jedoch freigegeben. |
Sitemap: | Sitemap: www.beispiel.de/sitemap.xml | Teilt dem Bot die Adresse der Sitemap.xml mit. |
Bei den Einträgen in der robots.txt solltest du sehr vorsichtig sein, da durch sie auch Inhalte für Suchmaschinen ausgeschlossen werden können. Ein Eintrag zur Sitemap.xml sollte in jedem Fall enthalten sein. Mit ihr erhalten Suchmaschinen einen Überblick über alle URLs deiner Webseite.
Über die Google Search Console kannst du testen, ob für deine Webseite bereits eine robots.txt hinterlegt ist. Du bekommst auch eine Rückmeldung, ob Google den Inhalt deiner robots.txt lesen kann und welche Informationen enthalten sind.
Du hast noch Fragen? Ich berate dich gerne.