Was ist die robots.txt und wie wird sie verwendet?

Die robots.txt ist eine wichtige Textdatei, die auf dem Server einer Website gespeichert wird und Suchmaschinen-Crawlern anzeigt, welche Bereiche und Seiten einer Website sie besuchen und in ihren Index aufnehmen dürfen. In diesem Artikel erfährst du, wie die robots.txt erstellt, konfiguriert und für die Optimierung deiner Website genutzt werden kann.

Grundlagen der robots.txt

Die robots.txt-Datei ist eine reine Textdatei, die im Hauptverzeichnis (Root) einer Domain abgelegt wird. Diese ermöglicht es Webseitenbetreibern, den Zugriff von Suchmaschinen wie Google auf die Website zu steuern, indem ausgesuchte Bereiche für bestimmte oder alle Suchroboter blockiert werden. Es ist wichtig zu beachten, dass die robots.txt von Suchmaschinen lediglich als Richtlinie verstanden wird und der Zugriff auf Webseitenbereiche nicht absolut sicher ausgeschlossen werden kann.

Funktion und Bedeutung der robots.txt

Die Hauptfunktion der robots.txt-Datei besteht darin, Suchmaschinen-Crawlern Anweisungen zu geben, welche Teile Ihrer Website sie durchsuchen dürfen und welche nicht. Dabei kannst du bestimmten Suchmaschinen-Bots den Zugriff auf bestimmte Seiten oder Verzeichnisse erlauben oder verbieten. Die robots.txt-Datei ist besonders nützlich für das Management des sogenannten Crawling-Budgets, das Suchmaschinen für jede Domain festlegen. Dieses Budget bestimmt, wie viele URLs täglich ausgelesen und möglicherweise indexiert werden.

Erstellung und Speicherort der robots.txt

Um eine robots.txt-Datei zu erstellen, benötigst du lediglich einen reinen Texteditor (wie z.B. Notepad unter Windows oder vi unter Linux). Nach dem erstellen der Datei, musst du diese ins Stammverzeichnis deiner Domain ablegen. Die Datei muss exakt den Namen “robots.txt” haben und für Suchmaschinen unter http://www.deinedomain.ch/robots.txt erreichbar sein.

Aufbau und Konfiguration der robots.txt

Die robots.txt-Datei besteht aus Datensätzen (records), die jeweils aus zwei Teilen bestehen. Der erste Teil wird mit dem Keyword User-agent eingeleitet und adressiert einen Suchroboter, dem im zweiten Teil Anweisungen gegeben werden. Bei diesen Anweisungen handelt es sich in der Regel um Crawling-Verbote, die mit dem Keyword Disallow eingeleitet werden und nachfolgend ein Verzeichnis bzw. eine oder mehrere Dateien nennen.

Als Beispiel kannst du dir unsere this:matters robots.txt Datei anschauen.

Grundlegende Anweisungen in der robots.txt

Die wichtigsten Anweisungen, welche du in einer robots.txt-Datei verwenden kannst, sind:

User-agent: Hier gibst du den Namen des Suchroboters an, für den die folgenden Anweisungen gelten sollen. Zum Beispiel: User-agent: Googlebot. Wenn du alle Suchroboter ansprechen möchtest, verwendest du ein Sternchen (*) als Platzhalter: User-agent: *.
Disallow: Mit dieser Anweisung blockierst du den Zugriff auf bestimmte Verzeichnisse oder Dateien für den angegebenen User-Agent. Zum Beispiel: Disallow: /geheimes-verzeichnis/.
Allow: Mit dieser Anweisung erlaubst du den Zugriff auf bestimmte Verzeichnisse oder Dateien innerhalb eines zuvor blockierten Bereichs. Zum Beispiel: Allow: /geheimes-verzeichnis/oeffentlich/.

Erweiterte Funktionen in der robots.txt

Einige Suchmaschinen unterstützen zusätzliche Parameter in der robots.txt, die es ermöglichen, die Angaben noch weiter zu präzisieren. Die folgenden Funktionen werden beispielsweise von Google unterstützt:

Sitemap: Mit dieser Anweisung weisst du die Suchmaschine auf die XML-Sitemap deiner Website hin, die unter der angegebenen Adresse zu finden ist. Beispiel: Sitemap: http://www.deinewebsite.ch/sitemap.xml.
Crawl-delay: Mit dieser Anweisung kannst du die Crawling-Geschwindigkeit für bestimmte Bots reduzieren, indem du die Zugriffsintensität auf deine Website beschränkst. Beispiel: User-agent: msnbot Crawl-delay: 15. Diese Funktion wird jedoch selten eingesetzt.

Beispiele für robots.txt-Dateien

Im Folgenden findest du einige Beispiele für robots.txt-Dateien und ihre Funktionen:

Zugriff für alle Suchmaschinen erlauben:

User-agent: *
Disallow:

Zugriff für alle Suchmaschinen verbieten:

User-agent: *
Disallow: /

Zugriff nur für einen bestimmten Bot erlauben (z.B. nur für Googlebot):

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Zugriff für einen bestimmten Bot verbieten (z.B. für Yandex-Bot):

User-agent: *
Disallow:

User-agent: Yandex
Disallow: /

Zugriff auf bestimmte Verzeichnisse oder Dateien blockieren:

User-agent: *
Disallow: /geheimes-verzeichnis/
Disallow: /vertrauliche-datei.html

Tipps für den richtigen Einsatz der robots.txt

Einstellungen prüfen: Test deine robots.txt nach einer Aktualisierung, zum Beispiel mit den Google Search Console-Tools, um sicherzustellen, dass keine wichtigen Webseitenbereiche blockiert sind.
Unwichtige Bots blockieren: Blockiere Suchmaschinen-Bots, die für dein Land oder deine Zielgruppe unwichtig sind, um unnötigen Traffic und Serverbelastung zu vermeiden. Für Bots, die die robots.txt-Anweisungen nicht befolgen, kann eine IP-Sperrung in einer .htaccess-Datei hilfreich sein.
Inhalte blockieren: Blockiere Bereiche und Dateien auf deiner Website, die nicht indexiert werden sollen, wie geschützte Bereiche (z.B. Login-Bereich) oder Bereiche mit dynamischen und sehr ähnlichen Inhalten, die Duplicate Content verursachen können.
Nicht blockieren: Blockiere keine JavaScript- oder CSS-Dateien, da dies Suchmaschinen daran hindert, das Design und die Funktionen deiner Website zu erkennen und zu verstehen.
Sitemap verlinken: Verlinken deine Sitemap in der robots.txt-Datei, damit Suchmaschinen bequem darauf zugreifen können.

Fazit

Die robots.txt-Datei ist ein wichtiges Instrument für das Indexierungsmanagement deiner Website. Sie ermöglicht es dir, den Zugriff von Suchmaschinen-Crawlern auf bestimmte Bereiche deiner Website zu steuern und somit das Crawling-Budget effizienter zu nutzen. Durch die richtige Konfiguration der robots.txt kannst du die Sichtbarkeit deiner Website in den Suchergebnissen verbessern und die SEO-Qualität erhöhen. Achte jedoch darauf, die robots.txt sorgfältig zu testen und zu überprüfen, um unbeabsichtigte Blockierungen wichtiger Webseitenbereiche zu vermeiden.