Der richtige Einsatz der Datei robots.txt

Beeinflussen Sie die Indizierung durch Suchmaschinen

Manchmal ist es wichtig verschiedene Dateien vor Suchmaschinen auszuschließen. Das kann eine Druckversion, Seiten aus dem Archiv mit doppeltem Content, oder einfach der Bestellprozess sein, der in den Ergebnissen nichts zu suchen hat. Eine korrekt erstellte robots.txt-Datei hilft dabei nur das indizieren zu lassen, was Sie möchten.

Trotz dem recht einfachen Umgang mit dieser zusätzlichen Suchmaschinen-Angabe, tauchen immer wieder Fragen auf, wie diese Datei richtig eingesetzt wird.

Wo befindet sich die robots.txt?
Erstellen Sie eine Datei mit der Endung .txt, und speichern Sie diese mit Ihren Angaben im Root-Verzeichnis Ihrer Domain. Die Datei muss nach Eintippen von http://www.meine-shop-domain.de/robots.txt im Browser angezeigt werden.

Braucht meine Website unbedingt eine robots.txt?
Prinzipiell existiert die robots.txt Datei dafür, einem Spider Zugriffe zu verbieten, und nicht ihm diesen zu erlauben. Grund für diese Verwirrung ist offenbar die Tatsache, dass Spider versuchen die robots.txt Datei auszulesen, und einen 404-Fehler zurückgeben, falls sie diese nicht finden. Daher die verbreitete Annahme, dass erst eine robots.txt den Bot auf die Seite lässt. Um 404-Fehler in Ihrer Webstatistik zu vermeiden, verwenden Sie eine robots.txt, um zu zeigen, dass alles indiziert werden darf.

Funktioniert ein Ausschluss immer?
Suchmaschinenspider halten sich im Normalfall an die Angaben in der robots.txt. Natürlich gibt es auch hier schwarze Schafe, die nur auf Content-Klau aus sind - solche Bots können Sie nur über die IP-Adresse in der .htaccess-Datei ausschließen. Sie sollten auch bedenken, dass ein Ordner der nicht für die Öffentlichkeit bestimmt ist, sich zwar über die robots.txt vor der Indizierung ausschließen lässt, das hält aber neugierige User nicht davon ab die Angaben der robots.txt direkt anzeigen zu lassen. Wenn Sie sensible Daten haben, schließen Sie diese mit einem htaccess-Verzeichnisschutz vor Spidern und unerwünschten Usern aus.

robots.txt-Beispiele:

Die standard robots.txt - alle Spider dürfen alles indizieren:

User-agent: *
Disallow:

Nichts darf indiziert werden. Um alles zu sperren und der Indizierung zu entziehen, schließen Sie alles aus:

User-agent: *
Disallow: /

Nur der Ordner Archiv darf nicht indiziert werden:

User-agent: *
Disallow: /archiv/

Um Bilderordner nicht indizieren zu lassen, vielleicht weil Sie nicht möchten, dass diese in der Bildersuche erscheinen, können Sie folgende Direktive verwenden. Der Google-Imagebot soll draußen bleiben, alle anderen Spider und Bilderspider dürfen aber indizieren:

User-Agent: Googlebot-Image
Disallow: /images/

Bei den oberen Beispielen, kann man schon grundlegend erkennen, wie der Ausschluss funktioniert. Folgt dem User-agent: ein * (Sternzeichen), betrifft es alle Robots, bei Angabe des Namen eines bestimmten Robots, nur diesen. Einzelne Seiten ausschließen Wenn Sie einzelne Seiten ausschließen möchten, können Sie dies über meta-tags machen. Fügen Sie einfach folgende Anweisung im head-Bereich auf der entsprechenden Seite ein:

<meta name="robots" content="noindex, nofollow" />

Spezialfall Google
Die Suchmaschine Google bietet noch einen erweiterten Service, um einzelne Dateien in der robots.txt auszuschließen. Hier können Sie auch mit Wildcards wie * und $ spezielle Anweisungen erteilen:

User-agent: *
Disallow: /*?

In diesem Fall würde die Angabe von *? alle URLs die ein Fragezeichen enthalten ausfiltern.

Näheres zu den erweiterten robots.txt Angaben finden Sie auf: http://www.google.com/support/webmasters/bin/answer.py?answer=40367

Erschienen am 11.08.2008, um 15:00h.

Neue Artikel

Kategorien

Der richtige Einsatz der Datei robots.txt

Beeinflussen Sie die Indizierung durch Suchmaschinen

robots.txt-Beispiele: