FAQ - Einfach erklärt.
Robots.txt erklärt in den Online-Marketing FAQ
301 Weiterleitungen

Die Robots.txt Datei

Was ist eine Robots.txt, Was steuert man damit?

  • Wie erlaubt oder verbietet man mit dieser Mechanik etwas?
  • Müssen Suchmaschinen das beachten?

Hinter dem Begriff robots.txt befindet sich eine Textdatei, die beim Bau einer Webseite implementiert wird und einfache Regeln wie Verbote und Erlaubnisse enthält. Sie teilt so genannten Crawlern mit, was zu tun und zu lassen ist. Dadurch wird z.B. eingestellt, dass sensible Informationen wie User-Login-Daten oder Bestellprozesse indexiert werden. Die einzelnen Einträge verstehen sich als Sperrvermerke.

Es handelt sich um einen einfachen, aber wirkungsvollen Steuerungsmechanismus, der von Suchmaschinen beachtet wird. Das Vorhandensein der Datei hält das Fehlerpotenzial einer Webseite niedrig und stellt für Suchmaschinen deshalb ein Qualitätskriterium dar. Mit der robots.txt lässt sich außerdem ein einfacher Verzeichnisschutz erstellen.

Ist keine robots.txt vorhanden, kann die Indexierung einer Internetseite ggf. nicht vollständig erfolgen.

Der Aufbau einer robots.txt-Textdatei erscheint auf den ersten Blick kompliziert, ist aber recht simpel. Im ersten Abschnitt befinden sich die Angabe der Firma, des Autors, der Domain und des Datums. Danach wird aufgezählt, welche Regeln für alle Crawler gelten sollen. Das Feld User-agent wird dazu mit einem * versehen. Im dritten Bereich werden Regeln aufgeführt, die nur einzelne Crawler betreffen. Es wird jeweils der User-agent aufgeführt und danach in je einem Unterpunkt aufgeführt, was der Internetroboter nicht machen darf. Abschließend werden noch die Sitemap-Angaben aufgeführt.

Mögliche Crawler, die man mit der robots.txt steuern kann, sind z.B. eMail Harvester, Spambots und der Googlebot. Wobei es keinen Zwang gibt diese Datei zu beachten. Zu den Dingen, die verboten werden können, gehören u.a. die Indexierung bestimmter Seiten und Libraries. Es ist auch möglich, einem Crawler alles zu verbieten, damit dieser komplett handlungsunfähig wird. Mithilfe von Pfaden lassen sich allgemeinere Regeln schreiben.

Die in der robots.txt gesperrten und festgehaltenen Einträge sollten im Optimalfall auch in den Google Webmaster Central gesperrt werden. Dort können die Sperrvermerke auch mit einem integrierten robots.txt-Tester geprüft werden.

Funktionsweise der robots.txt

Funktionsweise der robots.txt

Eine robots.txt Datei ist eine Textdatei welche einfache Regeln wie Verbote (Disallow) und Erlaubungen (Allow) enthält.

Was ist also eine robots.txt Datei? Diese Datei enthält Anweisung in Form von Verboten für die Crawler um zu verhindern, dass unerwünschte Internetseitenbereiche, wie beispielsweise User-Login oder Bestellprozess, indexiert werden. Die einzelnen Einträge sind wie Sperrvermerke zu verstehen.

Die Einzigartigkeit der URLs ist hier das Wichtigste unter SEO Gesichtspunkten. Jedoch ist auch die Sicherheit und deren Vorsorge wichtig. Das hat zur Folge, dass httpS Internetseiten Vorteile gewinnen. Die Gründe hierfür sind auch im Bereich Sicherheit anzusiedeln, zumal es aus SEO Sicht ohnehin keinen Grund gibt Internetseitenbereiche, wie Login oder Bestellprozess indexieren zu lassen.

  1. Aufbau der Datei:
  2. Teil, der alle Crawler betrifft
  3. Teil, der nur einzeln benannte Crawler betrifft
  4. Sitemap Angaben
Angaben Einträge
1. Aufbau der Datei
Firma
Wer war`s
Domain
Datum
# Company: Firma
# Author: Wer / Welche Abteilung
# URL: http://www.domain.tld
# Date: 2015-12-31
2. Teil, der alle Crawler betrifft
Alle Crawler dürfen nicht
nicht die Fehlerseite indexieren
nicht die /admin.php Seite indexieren

User-agent: *
Disallow: /404
Disallow: /admin.php

3. Teil, der nur einzeln benannte Crawler betrifft
Der Google Crawler (oder Bot) darf nicht
die JavaScript Libary indexieren
die Shockwave/Flash Libary indexieren

User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.swf$

Der AboutUsBot Crawler darf
nichts

Der Amfibibot Crawler darf
nichts

User-agent: AboutUsBot
Disallow: /

User-agent: Amfibibot
Disallow: /

4. Sitemap Angaben
sitemap: http://www.domain.tld/robots.txt sitemap: [absoluteURL]

 

 

Es lassen sich einzelne Dateien, gesamte Verzeichnisse bis hin zur gesamten Internetseite für alle oder nur einzelne Crawler ausschließen. Selbst Parameter werden heutzutage in der robots.txt beachtet. Google, Bing, Yahoo und Ask unterstützt eine begrenzte Form der "Platzhalter" für Pfadwerte.

Googles FAQ Link dazu:

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en

Gibt es Fragen?

Wir sind für Sie da!

Es werden allerlei Kekse (Cookies), Schriftarten von Google (Google Fonts), unser CRM Hubspot, parziell Youtube um für Euch Bewegtbilder parat zu haben und Google Analytics um diese Seite zu verbessern geladen. Für Sie einfach zum Nachlesen die Datenschutzerklärung oder das Impressum .