Hinter dem Begriff robots.txt befindet sich eine Textdatei, die beim Bau einer Webseite implementiert wird und einfache Regeln wie Verbote und Erlaubnisse enthält. Sie teilt so genannten Crawlern mit, was zu tun und zu lassen ist. Dadurch wird z.B. eingestellt, dass sensible Informationen wie User-Login-Daten oder Bestellprozesse indexiert werden. Die einzelnen Einträge verstehen sich als Sperrvermerke.
Es handelt sich um einen einfachen, aber wirkungsvollen Steuerungsmechanismus, der von Suchmaschinen beachtet wird. Das Vorhandensein der Datei hält das Fehlerpotenzial einer Webseite niedrig und stellt für Suchmaschinen deshalb ein Qualitätskriterium dar. Mit der robots.txt lässt sich außerdem ein einfacher Verzeichnisschutz erstellen.
Ist keine robots.txt vorhanden, kann die Indexierung einer Internetseite ggf. nicht vollständig erfolgen.
Der Aufbau einer robots.txt-Textdatei erscheint auf den ersten Blick kompliziert, ist aber recht simpel. Im ersten Abschnitt befinden sich die Angabe der Firma, des Autors, der Domain und des Datums. Danach wird aufgezählt, welche Regeln für alle Crawler gelten sollen. Das Feld User-agent wird dazu mit einem * versehen. Im dritten Bereich werden Regeln aufgeführt, die nur einzelne Crawler betreffen. Es wird jeweils der User-agent aufgeführt und danach in je einem Unterpunkt aufgeführt, was der Internetroboter nicht machen darf. Abschließend werden noch die Sitemap-Angaben aufgeführt.
Mögliche Crawler, die man mit der robots.txt steuern kann, sind z.B. eMail Harvester, Spambots und der Googlebot. Wobei es keinen Zwang gibt diese Datei zu beachten. Zu den Dingen, die verboten werden können, gehören u.a. die Indexierung bestimmter Seiten und Libraries. Es ist auch möglich, einem Crawler alles zu verbieten, damit dieser komplett handlungsunfähig wird. Mithilfe von Pfaden lassen sich allgemeinere Regeln schreiben.
Die in der robots.txt gesperrten und festgehaltenen Einträge sollten im Optimalfall auch in den Google Webmaster Central gesperrt werden. Dort können die Sperrvermerke auch mit einem integrierten robots.txt-Tester geprüft werden.
Funktionsweise der robots.txt

Eine robots.txt Datei ist eine Textdatei welche einfache Regeln wie Verbote (Disallow) und Erlaubungen (Allow) enthält.
Was ist also eine robots.txt Datei? Diese Datei enthält Anweisung in Form von Verboten für die Crawler um zu verhindern, dass unerwünschte Internetseitenbereiche, wie beispielsweise User-Login oder Bestellprozess, indexiert werden. Die einzelnen Einträge sind wie Sperrvermerke zu verstehen.
Die Einzigartigkeit der URLs ist hier das Wichtigste unter SEO Gesichtspunkten. Jedoch ist auch die Sicherheit und deren Vorsorge wichtig. Das hat zur Folge, dass httpS Internetseiten Vorteile gewinnen. Die Gründe hierfür sind auch im Bereich Sicherheit anzusiedeln, zumal es aus SEO Sicht ohnehin keinen Grund gibt Internetseitenbereiche, wie Login oder Bestellprozess indexieren zu lassen.
- Aufbau der Datei:
- Teil, der alle Crawler betrifft
- Teil, der nur einzeln benannte Crawler betrifft
- Sitemap Angaben
Angaben | Einträge |
---|---|
1. Aufbau der Datei | |
Firma Wer war`s Domain Datum |
# Company: Firma # Author: Wer / Welche Abteilung # URL: http://www.domain.tld # Date: 2015-12-31 |
2. Teil, der alle Crawler betrifft | |
Alle Crawler dürfen nicht nicht die Fehlerseite indexieren nicht die /admin.php Seite indexieren |
User-agent: * |
3. Teil, der nur einzeln benannte Crawler betrifft | |
Der Google Crawler (oder Bot) darf nicht die JavaScript Libary indexieren die Shockwave/Flash Libary indexieren |
User-agent: Googlebot |
Der AboutUsBot Crawler darf Der Amfibibot Crawler darf |
User-agent: AboutUsBot User-agent: Amfibibot |
4. Sitemap Angaben | |
sitemap: http://www.domain.tld/robots.txt | sitemap: [absoluteURL] |
Es lassen sich einzelne Dateien, gesamte Verzeichnisse bis hin zur gesamten Internetseite für alle oder nur einzelne Crawler ausschließen. Selbst Parameter werden heutzutage in der robots.txt beachtet. Google, Bing, Yahoo und Ask unterstützt eine begrenzte Form der "Platzhalter" für Pfadwerte.
Googles FAQ Link dazu:
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en
Ihre Lead Generierung Agentur
hier.
Interesse geweckt?
Dann schreiben Sie uns, wir helfen & sind für Sie da!