Robots.txt – Einfach erklärt

Mit der robots.txt-Datei könnt ihr steuern, wie Suchmaschinen auf eure Website zugreifen. Ihr habt die Möglichkeit, irrelevante oder sensible Inhalte auszuschließen und so die Ressourcen eurer Website zu schonen. Erfahrt hier, was eine robots.txt-Datei ist und wie ihr sie effektiv nutzen könnt.

Robots.txt – Einfach erklärt
Eine robots.txt-Datei ermöglicht dir die Kontrolle darüber, welche Inhalte deiner Website von Suchmaschinen erfasst werden.
Benz Digital

Die robots.txt-Datei ist eine wichtige Datei im SEO, die Suchmaschinen-Crawlern sagt, welche Teile deiner Website durchsucht werden dürfen. Mit einer robots.txt-Datei kannst du den Crawling-Traffic verwalten und unerwünschte Bereiche vom Crawling ausschließen, um die Sichtbarkeit in den Google-Suchergebnissen zu steuern.

„Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen“, so Google in Ihrer Dokumentation

robots.txt Erklärer

Der robots.txt-Erklärer

📁 website.com/
📄 robots.txt

Was ist die robots.txt?

Wo findet man die robots.txt?

Die Datei befindet sich im Stammverzeichnis deiner Website und enthält einfache Anweisungen wie „Disallow“ und „Allow“. Für eine Website wie www.example.com liegt die robots.txt-Datei direkt unter www.example.com/robots.txt.

Warum ist die robots.txt wichtig für SEO?

Durch gezielte Anweisungen an die Crawler kannst du verhindern, dass irrelevante oder sensible Inhalte von Suchmaschinen durchsucht und möglicherweise indexiert werden. Dies verbessert die Effizienz des Crawlings und kann dazu beitragen, das Ranking deiner wichtigsten Seiten zu verbessern. Hier zwei Beispiele: 

  1. Irrelevante Inhalte ausschließen:

Verhindere, dass unwichtige Seiten wie Druckversionen gecrawlt und u.U. indexiert werden. 

User-agent: *
Disallow: /druckversion/
  1. Sensible Inhalte schützen:

Schließe private oder sensible Bereiche wie das Admin-Panel aus.

User-agent: *
Disallow: /wp-admin/

Aufbau und Inhalt einer robots.txt

Google stellt wie gewohnt eine Dokumentation hierfür zur Verfügung: Anleitung zum Schreiben und Einreichen einer robots.txt-Datei

Eine typische robots.txt-Datei besteht aus einfachen Anweisungen, die mit „User-agent“ (Suchmaschinen-Crawler) beginnen, gefolgt von „Disallow“ oder „Allow“-Befehlen. Hier ein Beispiel:

User-agent: *
Disallow: /private/
Allow: /public/

In diesem Beispiel wird allen Crawlern der Zugriff auf das Verzeichnis „/private/“ untersagt, während das Verzeichnis „/public/“ erlaubt ist, wobei man Allow i.d.R. nicht explizit erwähnen muss. Das Allow ist quasi optional und muss nicht explizit erwähnt werden

Beispiel einer robots.txt

Ein konkretes Beispiel für eine robots.txt-Datei könnte so aussehen:

User-agent: Googlebot
Disallow: /admin/
Disallow: /tmp/
Allow: /public/

Diese Anweisungen gelten speziell für den Googlebot und verhindern, dass er die Verzeichnisse „/admin/“ und „/tmp/“ durchsucht, während „/public/“ erlaubt ist.

Sitemap in der Textdatei referenzieren

Es ist auch möglich und empfohlen, deine XML-Sitemap in der robots.txt-Datei zu referenzieren. Dies hilft Suchmaschinen, die Struktur deiner Website besser zu verstehen und alle Seiten effizient zu indexieren:

User-Agent: *
Disallow: /wp-admin/
Sitemap: https://www.beispielseite.de/sitemap.xml

Warum Du die Datei selbst steuern solltest

In der Praxis kann eine gut konfigurierte robots.txt-Datei einerseits die Indexierung optimieren und andererseits Serverressourcen schonen. Zum Beispiel können große E-Commerce-Websites durch das Ausschließen von Filter- und Suchergebnissen ihre Crawl-Effizienz erheblich verbessern. Ziel ist es, dass du dem Googlebot so einfach wie möglich machst, deine wichtigsten Seiten zu finden, ohne hunderte Filter-URLs mit demselben Content durchsuchen zu müssen. 

Unser robots.txt-Viewer als Chrome Extension

Derzeit wird ein Platzhalterinhalt von LinkedIn angezeigt. Um den eigentlichen Inhalt zu sehen, bitte die Schaltfläche unten anklicken. Dabei werden Daten an Drittanbieter übermittelt.

Mehr Informationen

Kann die robots.txt umgangen werden? 

Ja, einige Crawler ignorieren die robots.txt vollständig. Dies sind Spam-Bots, die deiner Website schaden und unnötige Ressourcen verschwenden. Es ist wichtig zu beachten, dass die robots.txt-Datei keine absolute Sicherheit bietet. Sie dient lediglich als Richtlinie für „wohlgesinnte“ Crawler. Böswillige Bots können die Anweisungen ignorieren und dennoch auf die ausgeschlossenen Bereiche zugreifen. 

Auswirkungen einer fehlenden robots.txt

Wenn keine robots.txt-Datei vorhanden ist, werden Suchmaschinen-Crawler standardmäßig alle Bereiche deiner Website durchsuchen und indexieren, die sie finden können und wollen. Dies kann zu unerwünschten Ergebnissen führen, wie der Indexierung von temporären oder sensiblen Inhalten.

Tool-Tipp: Was kann ich gegen bösartige Bots tun?

Für WordPress-Seiten ist unsere Empfehlung, das Plugin Blackhole for Bad Bots zu verwenden. 

  • Erklärung: Das Plugin fügt einen versteckten Trigger-Link im Footer deiner Seiten hinzu. 
  • Funktion: In der robots.txt-Datei wird dieser Link als verboten für alle Bots markiert. 
  • Identifikation: Bots, die diese Regel in der robots.txt- Datei ignorieren und den versteckten Link aufrufen, werden als „Bad Bots“ identifiziert und sofort blockiert.
  • Ausnahmen: Bekannte und nützliche Bots wie Googlebot, Bingbot, DuckDuckGo und andere sind standardmäßig auf einer Whitelist, sodass sie niemals blockiert werden, selbst wenn sie die robots.txt-Regeln ignorieren. 
  • Individualisierung: Diese Liste kann im Plugin angepasst werden.

Bei Fragen rund um WordPress-Websites, wendet euch jederzeit gerne an uns. Bei Benz Digital legen wir großen Wert darauf, die Leistung (PageSpeed) Eurer Website zu optimieren, um die Benutzererfahrung und die Kundenzufriedenheit zu maximieren ‒ dabei behalten wir auch Bots im Auge.

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Benz Digital