Die Robots.txt Datei

Was ist eine Robots.txt, Was steuert man damit?

Wie erlaubt oder verbietet man mit dieser Mechanik etwas?
Müssen Suchmaschinen das beachten?

Hinter dem Begriff robots.txt befindet sich eine Textdatei, die beim Bau einer Webseite implementiert wird und einfache Regeln wie Verbote und Erlaubnisse enthält. Sie teilt so genannten Crawlern mit, was zu tun und zu lassen ist. Dadurch wird z.B. eingestellt, dass sensible Informationen wie User-Login-Daten oder Bestellprozesse indexiert werden. Die einzelnen Einträge verstehen sich als Sperrvermerke.

Es handelt sich um einen einfachen, aber wirkungsvollen Steuerungsmechanismus, der von Suchmaschinen beachtet wird. Das Vorhandensein der Datei hält das Fehlerpotenzial einer Webseite niedrig und stellt für Suchmaschinen deshalb ein Qualitätskriterium dar. Mit der robots.txt lässt sich außerdem ein einfacher Verzeichnisschutz erstellen.

Ist keine robots.txt vorhanden, kann die Indexierung einer Internetseite ggf. nicht vollständig erfolgen.

Der Aufbau einer robots.txt-Textdatei erscheint auf den ersten Blick kompliziert, ist aber recht simpel. Im ersten Abschnitt befinden sich die Angabe der Firma, des Autors, der Domain und des Datums. Danach wird aufgezählt, welche Regeln für alle Crawler gelten sollen. Das Feld User-agent wird dazu mit einem * versehen. Im dritten Bereich werden Regeln aufgeführt, die nur einzelne Crawler betreffen. Es wird jeweils der User-agent aufgeführt und danach in je einem Unterpunkt aufgeführt, was der Internetroboter nicht machen darf. Abschließend werden noch die Sitemap-Angaben aufgeführt.

Mögliche Crawler, die man mit der robots.txt steuern kann, sind z.B. eMail Harvester, Spambots und der Googlebot. Wobei es keinen Zwang gibt diese Datei zu beachten. Zu den Dingen, die verboten werden können, gehören u.a. die Indexierung bestimmter Seiten und Libraries. Es ist auch möglich, einem Crawler alles zu verbieten, damit dieser komplett handlungsunfähig wird. Mithilfe von Pfaden lassen sich allgemeinere Regeln schreiben.

Die in der robots.txt gesperrten und festgehaltenen Einträge sollten im Optimalfall auch in den Google Webmaster Central gesperrt werden. Dort können die Sperrvermerke auch mit einem integrierten robots.txt-Tester geprüft werden.

Funktionsweise der robots.txt

Eine robots.txt Datei ist eine Textdatei welche einfache Regeln wie Verbote (Disallow) und Erlaubungen (Allow) enthält.

Was ist also eine robots.txt Datei? Diese Datei enthält Anweisung in Form von Verboten für die Crawler um zu verhindern, dass unerwünschte Internetseitenbereiche, wie beispielsweise User-Login oder Bestellprozess, indexiert werden. Die einzelnen Einträge sind wie Sperrvermerke zu verstehen.

Die Einzigartigkeit der URLs ist hier das Wichtigste unter SEO Gesichtspunkten. Jedoch ist auch die Sicherheit und deren Vorsorge wichtig. Das hat zur Folge, dass httpS Internetseiten Vorteile gewinnen. Die Gründe hierfür sind auch im Bereich Sicherheit anzusiedeln, zumal es aus SEO Sicht ohnehin keinen Grund gibt Internetseitenbereiche, wie Login oder Bestellprozess indexieren zu lassen.

Aufbau der Datei:
Teil, der alle Crawler betrifft
Teil, der nur einzeln benannte Crawler betrifft
Sitemap Angaben

Angaben	Einträge
1. Aufbau der Datei
Firma Wer war`s Domain Datum	# Company: Firma # Author: Wer / Welche Abteilung # URL: http://www.domain.tld # Date: 2015-12-31
2. Teil, der alle Crawler betrifft
Alle Crawler dürfen nicht nicht die Fehlerseite indexieren nicht die /admin.php Seite indexieren	User-agent: * Disallow: /404 Disallow: /admin.php
3. Teil, der nur einzeln benannte Crawler betrifft
Der Google Crawler (oder Bot) darf nicht die JavaScript Libary indexieren die Shockwave/Flash Libary indexieren	User-agent: Googlebot Disallow: /.js$ Disallow: /.swf$
Der AboutUsBot Crawler darf nichts Der Amfibibot Crawler darf nichts	User-agent: AboutUsBot Disallow: / User-agent: Amfibibot Disallow: /
4. Sitemap Angaben
sitemap: http://www.domain.tld/robots.txt	sitemap: [absoluteURL]

Es lassen sich einzelne Dateien, gesamte Verzeichnisse bis hin zur gesamten Internetseite für alle oder nur einzelne Crawler ausschließen. Selbst Parameter werden heutzutage in der robots.txt beachtet. Google, Bing, Yahoo und Ask unterstützt eine begrenzte Form der "Platzhalter" für Pfadwerte.

Googles FAQ Link dazu:

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en

Heiko Wohlgemuth

L(i)ebt das Online-Marketing.

Wir sind als Full Service Agentur für Sie da.

Ihre Lead Generierung Agentur hier.

Interesse geweckt?

Dann schreiben Sie uns, wir helfen & sind für Sie da!

Kontakt

Hier einfach erklärt:

Die Robots.txt Datei

Was ist eine Robots.txt, Was steuert man damit?

Funktionsweise der robots.txt

Heiko Wohlgemuth