robots.txt

Was ist eine robots.txt?

Eine robots.txt ist eine Datei, die Informationen über die Webseite für Suchmaschinen enthält. Wird eine Webseite von einem Suchmaschinencrawler gelesen, überprüft dieser zunächst, ob eine robots.txt vorliegt. Hier findet er beispielsweise Informationen, welche Inhalte der Crawler lesen darf.

Wie wird eine robots.txt erstellt?

Eine robots.txt ist ein Standardtextdokument, dass mit jedem einfachen Textprogramm wie beispielsweise dem Texteditor von Windows erstellt werden kann. Hier kannst du eine robots.txt herunterladen.

Wie kann ich eine robots.txt aufrufen?

Eine robots.txt kann ganz einfach aufgerufen werden:
www.beispiel.de/robots.txt

Die Datei liegt im sogenannten Stammverzeichnis (Root). Ersetze www.beispiel.de durch die URL der Webseite. Über https://growbility.de/robots.txt kannst du auf die robots.txt dieser Webseite zugreifen.

Was steht in einer robots.txt?

In seiner einfachsten Form enthält eine robots.txt folgende Einträge:
1 # Beispiel einer robots.txt
2 User-agent: *
3 Disallow:

Die erste Zeile enthält lediglich ein Kommentar. Das erkennst du an dem #-Zeichen zu Beginn. Mithilfe von Kommentaren dokumentieren Programmierer ihren Code. Suchmaschinen lesen diesen Inhalt nicht.

Die zweite Zeile enthält die Information, an welchen Webcrawler die Anweisung adressiert ist. In diesem Fall ist ein * eingetragen, womit die nachfolgende Anweisung für alle Bots, die die Webseite lesen, gültig ist.

In Zeile drei steht nun der eigentliche Befehl „Disallow“. Nach diesem folgen die Verzeichnisse, auf die der Webcrawler nicht zugreifen darf. In unserem Beispiel steht hier kein Eintrag. Der Crawler erhält also Zugriff auf alle Inhalte der Webseite.

Weitere mögliche Inhalte einer robots.txt

Die nachfolgende Tabelle zeigt dir Beispiele für weitere Inhalte:

Anweisung	Beispiel	Funktion
User-agent:	User-agent: Googlebot	Die Anweisung ist nur für den Googlebot bestimmt.
Disallow:	Disallow: /temp	Das Verzeichnis /temp wird blockiert.
Disallow:	Disallow: /	Die komplette Webseite wird blockiert.
Disallow: Allow:	Disallow: /files Allow: /files/*.pdf$	Das Verzeichnis /files wird blockiert, Dateien mit der Endung „.pdf“ sind jedoch freigegeben.
Sitemap:	Sitemap: www.beispiel.de/sitemap.xml	Teilt dem Bot die Adresse der Sitemap.xml mit.

Bei den Einträgen in der robots.txt solltest du sehr vorsichtig sein, da durch sie auch Inhalte für Suchmaschinen ausgeschlossen werden können. Ein Eintrag zur Sitemap.xml sollte in jedem Fall enthalten sein. Mit ihr erhalten Suchmaschinen einen Überblick über alle URLs deiner Webseite.

Wie kann eine robots.txt getestet werden?

Über die Google Search Console kannst du testen, ob für deine Webseite bereits eine robots.txt hinterlegt ist. Du bekommst auch eine Rückmeldung, ob Google den Inhalt deiner robots.txt lesen kann und welche Informationen enthalten sind.

Du hast noch Fragen? Ich berate dich gerne.

Kontakt aufnehmen