Was ist Robots.txt eigentlich?

Um nachvollziehen zu können, wofür robots.txt eigentlich gut ist, lohnt sich ein Blick auf die Definition für diesen Bereich. Sicher hast du es selbst schon einmal erlebt: Du gehst auf eine Webseite und plötzlich erscheint dort der Hinweis: Error404. Was ist passiert? Die Suchmaschine ist auf die Webseite gegangen und hat für die Indexierung robots.txt angefordert. Wenn dieser nicht vorhanden ist, dann erscheint der Fehler. Für den Besucher deiner Webseite ist dies ein Zeichen dafür, dass hier etwas schief läuft. Er wird also vermutlich nicht mehr wiederkommen. Das passiert nicht, wenn du mit einer robots.txt arbeitest. Du kannst in der Datei die Anweisungen dazu geben, welcher Teil der Webseite nicht indexiert werden darf. Dateien, die im robots.txt-Bereich nicht angegeben sind, dürfen durch die Suchmaschine auch indexiert werden.

Tipp: Es kann durchaus passieren, dass du von der Suchmaschine mit deiner Webseite gar nicht indexiert wirst, wenn die Datei bei dir nicht vorhanden ist. Damit möchte die Suchmaschine sicherstellen, dass keine negativen Seiten indexiert werden. In diesem Fall bist du aber auch dann betroffen, wenn deine Webseite gar keine negativen Inhalte enthält.

Wie alles begann

Damit es möglich ist, auf die Indexierung ganz oder für einen bestimmten Zeitraum zu verzichten, wurde im Jahr 1997 das Robots Exclusion Standard gegründet. Dieses Protokoll hat bis heute einen hohen Stellenwert und ist sozusagen die Grundlage für den robots.txt Generator in jeglicher Form.

Dieses Protokoll besagt, dass der Robot immer erst in das Root-Verzeichnis von einer Seite gehen muss. Hier macht er sich auf die Suche nach einem robots.txt. Dies ist eine Datei, die interpretiert werden muss. Über diese Datei ist es möglich festzulegen, inwiefern der Robot die Webseite überhaupt oder mit Einschränkungen besuchen darf. Damit sie ausgelesen werden kann ist es notwendig, dass die gesamte Datei ausschließlich mit kleinen Buchstaben bezeichnet wird. Suchmaschinen, die eine Seite indexieren, gehen nach den durch die Robots vorgegebenen Anweisungen vor. Dafür ist es aber notwendig, dass die Syntax stimmt. Allerdings lesen manche Crawler die Syntax unterschiedlich.

Hinweis: Bedenke, dass ein Robots.txt Generator dabei helfen kann, dass eine Seite nicht indexiert wird, was jedoch nicht heißt, dass sie unsichtbar ist. Dafür braucht es Verfahren, die anders arbeiten. Du könntest in diesem Fall beispielsweise auf eine Access Control List zurückgreifen.

Doch warum solltest du überhaupt darauf verzichten wollen, dass eine Seite indexiert wird? Diese Frage ist durchaus berechtigt, denn eigentlich ist es so, dass die meisten Webseitenbetreiber sehr großen Wert auf eine Sichtbarkeit in der Suchmaschine legen. Allerdings ist dieser Wunsch nur dann da, wenn die Webseite auch wirklich gesehen werden soll. Ist eine der Unterseiten oder die Seite selbst noch nicht fertig, soll aber schon online gestellt werden, dann lässt sich die Indexierung durch Robots.txt vermeiden.

Natürlich brauchst du die robots.txt, wie bereits erwähnt, auch dafür, deine Webseite überhaupt zu indexieren. Du hast jedoch die Möglichkeit, über diese Datei spezielle Anweisungen zu geben, die für die Indexierung deiner Webseite von Vorteil sind. Grundsätzlich braucht es für den Einsatz der Datei auch kein großes Vorwissen. Auch dann, wenn es sich um deine erste Webseite handelt, profitierst du von der Nutzung von robots.txt und brauchst dafür oft nicht einmal Hilfe. Setze dich einfach kurz mit dem Thema auseinander und nutze einen Generator, der dir bei der Zusammenstellung hilft.

Mit robots.txt kannst du zwar verhindern, dass Teile deiner Webseite indexiert werden. Du kannst aber nicht verhindern, dass andere Webseiten auf die geblockten URLs verweisen und diese somit im Internet auftauchen und möglicherweise von Nutzern auch ausgewählt werden. Das heißt, wenn deine URL auf einer anderen Webseite veröffentlicht wird, finden sich hier auch einige Daten, die wieder in die Indexierung einfließen können. Zu diesen Daten gehören beispielsweise die Ankertexte. Möchtest du dies ebenfalls vermeiden, dann solltest du dich über zusätzliche Blockierungsmöglichkeiten für URLs informieren. Beachte dabei jedoch, dass die Kombination von verschiedenen Indexierungsrichtlinien zu Problemen führen kann.

Einschränkungen bei der Nutzung von robots.txt

Gerade dann, wenn du die robots.txt nutzen möchtest, um Teile deiner Webseite zu blockieren, solltest du wissen, dass es hier auch Einschränkungen gibt. Das heißt, du kannst dich nicht vollständig auf diese Variante verlassen. Du hast beispielsweise nicht die Möglichkeit, das Verhalten der Crawler zu beeinflussen oder zu erzwingen. Du gibst damit lediglich Richtlinien vor, die dabei helfen können, deine Webseite richtig zu indexieren. Normalerweise gehen die Crawler auch nach den Einweisungen vor, die hier gemacht werden. Darauf verlassen kannst du dich letztendlich jedoch nicht.

Eine weitere Problematik ist es, dass die Syntax unterschiedlich von den Crawlern gelesen werden kann. Daher solltest du vorher genau schauen, wie die Syntax für die Webcrawler ist, die für dich wichtig sind. Vielleicht möchtest du generell mit deiner Webseite nur in bestimmten Suchmaschinen auftauchen. Für diesen Fall schaue einfach auf die Crawler dieser Webseiten.

Schnell Anweisungen fertigstellen mit dem Robots.txt Generator

Du hast nun die Möglichkeit, eine robots.txt komplett selbst aufzubauen. Dafür braucht es ein Händchen für den Texteditor sowie die Grundlagen in der Erstellung der Vorgaben. Einfacher geht es aber auch. Du kannst zu einem Robots.txt Generator greifen. Die Zusammenstellung der Anweisungen für die Spider ist mit diesem Tool innerhalb einer kurzen Zeit erledigt. Wie funktioniert es?

  • Du gibst die Adresse deiner Webseite ein sowie die Sitemap
  • Du legst fest, welche Seiten oder auch Ordner nicht indexiert werden sollen
  • Du kannst Spider auch komplett ausschließen

Mehr Angaben braucht es gar nicht für die Erstellung der robot.txt. Diese können dann eingesetzt werden.

Nicht zu vergessen ist eine Prüfung der Robots. Auch wenn sich Fehler mit einem Robots.txt Generator eher selten einschleichen, kann es nicht schaden, über ein Webmaster Tool einen Test durchzuführen, der sich mit dem Crawler-Zugriff beschäftigt.

Die häufigsten Fehler bei einer Robots.txt Datei zur Nicht-Indexierung

Es gibt einige Fehler die dafür sorgen können, dass deine Robots.txt Datei nicht wie gewünscht funktioniert. Auch hier ist es so, dass diese Fehler nicht unbedingt anfallen, wenn du mit einem Robots.txt Generator arbeitest. Dennoch kann es sein, dass sich die eine oder andere Problematik einschleicht. Wir haben für dich die häufigsten Fehler im Überblick:

1. Nicht richtig gespeichert

Damit die Datei auch funktioniert, muss sie richtig abgespeichert werden. Einer der häufigsten Fehler ist es, dass der Webmaster die Datei nicht im Root-Verzeichnis der Seite ablegt. Dabei wird meist ausschließlich das Root-Verzeichnis durch die Crawler durchsucht. Wenn die Datei hier nicht gespeichert ist, dann kann sie ihre Wirkung auch nicht entfalten. Stelle also fest, dass eine URL dennoch indexiert wird, obwohl du dies durch die robots.txt eigentlich vermeiden wolltest, dann solltest du als erstes einen Blick auf den Speicherort werfen und prüfen, ob alles richtig abgelegt wurde. Manchmal reicht hier eine kleine Änderung schon aus, um einen großen Einfluss auf die Indexierung zu erwirken.

2. Fehlende Anweisungen

Es kann durchaus passieren, dass du eine Datei durch den Robots.txt Generator erstellen lässt, hier aber einige Anweisungen fehlen. Wenn sich gar nichts in der Datei befindet, dann wird sie auch nicht wahrgenommen durch die Crawler. Achte daher immer darauf, dass sich die richtigen Anweisungen in der Datei finden. Prüfe die Anweisungen also nach der Nutzung des Generators noch einmal und hole dir notfalls professionelle Hilfe, wenn du unsicher bist, ob die Datei alle Anweisungen enthält.

3. Die Kleinschreibung

Wie bereits erwähnt sollte deine Datei immer klein geschrieben sein. Damit vermeidest du Fehler und die Datei wird ganz sicher ausgelesen. Gehe also direkt auf Nummer Sicher.

4. Die falschen Verzeichnisse blockiert

Im Eifer des Gefechts kann es durchaus sein, dass du falsche Verzeichnisse blockierst. Das wird dann zum Problem, wenn du den Fehler nicht bemerkst und dich wunderst, warum bestimmte Verzeichnisse nicht in der Suchmaschine auftauchen. Gehe daher alle durch den Robots.txt Generator zusammengestellten Dateien noch einmal zur Kontrolle durch.

5. Mehrere Verzeichnisse in einer Reihe

Einer der ebenfalls sehr häufigen Fehler ist es, dass sich in einer Reihe mehrere Verzeichnisse befinden. Jedes Verzeichnis braucht eine eigene Zeile.

6. Allow im Einsatz

Das wohl wichtigste Kommando bei einer robots.txt ist das „Disallow“. Ohne diesen Kommentar würden die Seiten weiterhin indexiert werden. Damit es nicht passiert, dass dennoch eine Indexierung stattfindet, darf auf keinen Fall der Kommentar „allow“ irgendwo in der Datei erscheinen. Dies wird durch einen Robots.txt Generator zwar nicht passieren. Falls du nach der Erstellung aber noch ein wenig an der Datei bastelst, achte unbedingt auf diesen Punkt.

Auf unserer Webseite erfährst du mehr über den Robots.txt Generator und kannst das Tool natürlich auch nutzen. Entscheide selbst, welche deiner Seiten und Unterseiten durch die Suchmaschinen indexiert werden.

Weitere Code-Snippets

Allen Spidern verbieten Ihre Webseiten zu indizieren.

User-agent: *
Disallow: /

Allen Spidern erlauben Ihre Webseiten zu indizieren.

User-agent: *
Disallow:

Allen Spidern bestimmte Pfade erlauben oder verbieten  zu indizieren.
Einfach den Code auf deine Bedürfnisse anpassen.

User-agent: *
Disallow:
/verbotener-pfad-1/
/verbotener-pfad-2/
Allow:
/erlaubter-pfad-1/
/erlaubter-pfad-2/

Im Folgenden findest du eine Auswahl nützlicher Links zum Thema robots.txt:


SEO Experte werden und Online Projekte wirkungsvoll realisieren – so funktioniert’s!