Robots.txt richtig einsetzen

Was ist die Robots.txt?

Die robots.txt Datei ist eine einfache Textdatei, die sich üblicherweise auf der obersten Verzeichnisebene im Stammverzeichnis deiner Webseite befindet. Ihre URL lautet daher: http://(www.deine-domain.de)/robots.txt Über deinen FTP Client kannst du die robots.txt öffnen und mit einem beliebigen Texteditor bearbeiten. Falls sich in deinem Stammverzeichnis noch keine robots.txt Datei befindet, kannst du sie ganz einfach selbst erstellen. Öffne dazu einfach eine neue Textdatei auf deinem Computer und speichere sie als „robots.txt“ ab und lade diese dann in das Stammverzeichnis deiner Webseite hoch.

Was macht die Robots.txt?

Bevor wir klären, was eine robots.txt Datei genau macht, sollten wir uns zuerst einmal den Begriff „Webcrawler“ zu Gemüte führen. Um zu verstehen, was Webcrawler sind, schauen wir uns einmal die Webcrawler Definition von Wikipedia an: Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind also Bots, die deine Webseite in regelmäßigen Abständen besuchen, um deine Seiten in Suchmaschinen zu indexieren oder nach Informationen abzuklopfen. Als Webseitenbetreiber möchte man allerdings nicht immer, dass jede Seite in den Suchmaschinen indexiert wird oder das Informationen bestimmter Seiten automatisch ausgelesen werden. Kurz: In bestimmten Fällen möchte man sich die ungeladenen Gäste vom Hals schaffen. Und genau dafür gibt es die Robot.txt-Datei. Bildlich kann man sich die robots.txt-Datei als eine Art Türsteher deiner Webseite vorstellen. Dieser Türsteher entscheidet, welche Webcrawler deine Webseite besuchen dürfen und welche sie nicht besuchen dürfen. Für alle Webcrawler, die eine Erlaubnis bekommen haben, kann der Türsteher (deine robots.txt) dann noch entscheiden, welche Bereiche genau auf deiner Webseite besucht werden dürfen und welche Tabu sind. Die robots.txt-Datei kontrolliert also Zugang von Webcrawlern auf deiner Webseite.

Wofür braucht man die Robots.txt?

Das teilweise oder komplette Ausschließen von Webcrawlern auf der eigenen Webseite ist besonders für folgende Szenarien sinnvoll:

  1. Man möchte, dass bestimmte Seiten oder Dateien (Bilder, Videos, PDFs, etc.) nicht gecrawlt werden.
  2. Man möchte, dass bestimmte Bereiche der Webseite nicht ausgelesen werden und privat bleiben.
  3. Man möchte wichtiges Crawl-Budget einsparen, indem man das Crawlen nicht relevanter Seiten verbietet.
  4. Man möchte dem Crawler helfen die XML-Sitemap zu finden.

Wenn es auf deiner Webseite keinen Bereich gibt, für den du den Zugriff von Crawlern kontrollieren möchtest, brauchst du keine robots.txt-Datei.  

Aufbau und Anweisungen der Robots.txt

Jeder Eintrag in der robots.txt besteht aus zwei Teilen. Da es verschiedene Webcrawler gibt, wird zunächst im ersten Teil des Eintrags festgelegt, für welchen User Agent (Crawler) genau eine Anweisung geben werden soll. z.B. User-agent: Googlebot Im zweiten Teil des Eintrags steht dann die Anweisung selbst. Hier sind die beiden Anweisungen „Disallow“ (verbieten) bzw. „Allow“ (erlauben) gefolgt von den Verzeichnissen, für die die Anweisungen gelten. z.B. Disallow: /geheim/ Der komplette Eintrag selbst sich nun also aus dem ersten und zweiten Teil zusammen und lautet wie folgt: User-agent: Googlebot Disallow: /geheim/ Dieser Eintrag in der robots.txt würde dem Goolgle-Crawler nun verbieten das Verzeichnis „geheim“ zu crawlen. Eine praktische Liste mit den gängigsten User Agents und den wichtigsten Anweisungen findest du auf unserem robots.txt Generator. Dort kannst du dir Schritt für Schritt deiner robots.txt Datei nach deinen Wünschen zusammenbauen.

robots.text testen

Wenn du testen möchtest, ob deine robots.text richtig eingestellt ist, kannst du das ganz einfach über die Google Webmaster Tools machen. Nach der Anmeldung wählst du deine Property (Webseite aus), klickst auf „Crawling“ in der linken Seitenleiste und danach auf „robots.txt-Tester“. Hier hast du die Möglichkeit deine robots.txt aus Sicht der Google User Agents zu testen.

Wen oder was sollte ich mit der Robots.txt ausschließen?

Auf die Frage, welche Bots und welche Bereiche einer Webseite ausgeschlossen werden sollten, gibt es keine universelle Antwort. Viel mehr hat jede Webseite seine eigenen, einzigartigen Ansprüche und Anforderungen. Deshalb muss jeder Webmaster seine eigene, perfekte Lösung hinsichtlich der robots.txt finden.

Seite in den SERP´s trotz „Disallow“?

Häufig staunt ein Webmaster nicht schlecht, wenn eine Seite indexiert wurde, obwohl sie per „Disallow“-Anweisung von dem Crawlen ausgeschlossen wurde. Ist dem Google User Agent dann hier eine Anweisung durch die Latten gegangen oder hat er die Anweisung sogar bewusst ignoriert? Nein, wie gefordert hat der User Agent die Seite nicht gecrawlt und die Seite wurde deshalb natürlich auch nicht auf diesem Wege indexiert. Was ist passiert? Fälschlicher Weise ist die Meinung weit verbreitet, dass man mit einer Disallow-Anweisung neben dem Crawlen der Seite auch die Indexierung verhindert. Das ist allerdings falsch. Denn wenn eine mit der Disallow-Anweisung versehenen Seite viele eingehende Links (Backlinks) mit überwiegend eindeutigem Linktext verzeichnet, betrachtet Google diese Seite als äußerst relevant und indexiert diese. Nun taucht diese Seite folglich auch in den Suchergebnissen auf, obwohl Google die Seite nicht gecrawlt hat und Google der Inhalt deshalb unbekannt ist. Zu erkennen sind solche Fälle in den Suchergebnissen anhand eines fehlenden Snippets. Beispielsweise fehlt dort die Beschreibung.

Fazit

Aus dem obigen Beispiel zeigt sich, dass die robot.txt kein effektives Mittel ist, um das Indexieren bestimmter Seiten und Bereiche einer Webseite zu verhindern. Dafür sind nämlich die Meta-Tags gedacht. Die robots.txt hingegen soll das Crawlen privater oder unrelevanter Bereiche deiner Webseite verhindern, damit der Crawler seine Zeit nicht mit diesen Inhalten verschwendet.