Googlebot: So funktioniert der Webcrawler von Google

Die Suchmaschine Google ist mit knapp 87 Prozent Marktanteil die beliebteste Suchmaschine weltweit. Im Fall der Schweiz verwenden sogar knapp 91 Prozent aller Nutzer Google als Suchmaschine. Dies macht Google zum unangefochtenen Marktführer. Für Website Besitzer ein grosser Grund sich mit dem Thema SEO und dem Googlebot auseinanderzusetzen. Im folgenden Artikel erkläre ich dir, was der Googlebot ist, wie er funktioniert und weshalb er so wichtig ist.

Was ist der Googlebot?

Der Googlebot ist ein Webcrawler, welcher die Aufgabe hat, das World Wide Web zu durchforsten. Der Webcrawler oder auch gerne mal “Spider” genannt, funktioniert hierbei genau gleich wie der Google Chrome Browser beim Surfen. Er folgt einem Link nach dem anderen, wodurch Google ein gesamtes Bild einer Website erhält.

Der Googlebot sorgt dafür, dass die Webseiten und deren Inhalte, welche er findet, eventuell auch im Google Index aufgenommen werden und somit in den Suchergebnissen erscheinen.

Die Funktionsweise des Googlebots

Der Googlebot funktioniert grundlegend ganz einfach. Er folgt einem Link, welcher im HTML Code mit einem <a>-Tag inklusive href-Attribut festgelegt wurde. Es gibt zu beachten, dass der Googlebot keinen Links folgt, die andere Formate verwenden.

Gestartet wird immer von bereits bekannten Websites, welche der Googlebot bereit schon kennt. Hier wird regelmässig überprüft, ob sich was geändert hat. Sollte im «alten Content» ein neuer Link vorhanden sein, folgt der Webcrawler diesem.

Die Zeitintervalle der Indexierung einer Website durch den Googlebot variiert und hängt von diversen Faktoren ab. Ein wichtiges Element ist die Häufigkeit der Aktualisierung einer Webseite.

Crawlt der Googlebot URLs, die selten neue Informationen zeigen, vergrössert er das zeitliche Crawlingintervall. Gibt es auf Websites regelmässig Änderungen und neue Nachrichten, crawlt der Googlebot die Seite in kürzeren Abständen. News-Websites wie Zeitungen und Blogs profitieren hier von häufigeren Crawls und einem höheren Crawling Budget, nicht zuletzt wegen Google News und der News Sitemap. Dazu aber in einem anderen Beitrag.

Nach einem erfolgreichen Crawling speichert Google alle Daten im Cache, sodass ein zu häufiges Crawling unterbindet wird. Ein anderer Googlebot, der auch die Seite crawlen möchte, greift zunächst auf den Cache zurück. Dies schont Ressourcen und belastet den Server nicht, auf dem die Webseite liegt.

Beachte dabei, der Googlebot kann nur die ersten 15 MB einer HTML-Datei crawlen. Jede im HTML-Code referenzierte Ressource wie CSS und JavaScript wird separat abgerufen und jeder Abruf ist an die gleiche Beschränkung der Dateigrösse gebunden. Nach den ersten 15 MB der Datei beendet der Googlebot das Crawling und berücksichtigt auch nur die ersten 15 MB der Datei für die Indexierung.

Google Entwicklerdokumentation

Die verschiedene Arten von Googlebots

Es existieren verschiedene Arten von Googlebots. Eine Version kümmert sich beispielsweise um das Crawlen von normalen Webseiten, die von einem Computer aufgerufen werden, während der Smartphone–Bot nur die Mobile Version einer Website crawlt und deren Inhalte auswertet. Letzteres wird seit einiger Zeit bevorzugt – Stichwort: Mobile First.

Die komplette Liste aller Googlebot Crawler findest du anbei:

Googlebot-Image: Wird zum Crawlen von Bildbytes für Google Bilder und für Produkte verwendet, die von Bildern abhängen.
Googlebot-News: Der Googlebot-News verwendet den Googlebot zum Crawlen von Nachrichtenartikeln, respektiert aber das bisherige User-Agent-Token Googlebot-News.
Googlebot-Video: Wird beim Crawlen von Videobytes für Google Videos und für Produkte verwendet, die von Videos abhängen.
Google-InspectionTool: Google-InspectionTool ist der Crawler, der von Search-Testtools wie dem Test für Rich-Suchergebnisse und der URL-Prüfung in der Search Console verwendet wird. Abgesehen vom User-Agent und dem User-Agent-Token wird der Googlebot nachgeahmt.
GoogleOther: Allgemeiner Crawler, der von verschiedenen Produktteams zum Abrufen von öffentlich zugänglichen Inhalten von Websites verwendet werden kann. Er kann beispielsweise für einmaliges Crawling für die interne Forschung und Entwicklung verwendet werden.
Google StoreBot: Der Google StoreBot crawlt unter anderem Seiten mit Produktdetails und Einkaufswagen sowie Zahlungsseiten.

Welcher jeweilige Googlebot die eigene Website gecrawlt hat, lässt sich anhand der Serverlog Daten erkennen, welche für die Suchmaschinenoptimierung auch eine grosse Rolle spielen. Dazu folgt später dann noch ein Blogartikel von uns.

So kontrollierst du den Googlebot

Google bietet dir als Website Besitzer einige Möglichkeiten an, den Googlebot zu kontrollieren. Dadurch kannst du bestimmen, welche Inhalte indexiert bzw. gecrawlt werden und somit nicht in den Suchergebnissen erscheint.

Viele seriöse Suchmaschinen folgen den Anweisungen, welche ich unten aufgelistet habe.

So kannst du das Crawlen kontrollieren

Nofollow – Durch das Nofollow Link-Attribut oder Meta-Robots-Tag, wird darauf hingewiesen, dass ein Webcrawler einem Link nicht folgen soll. Aktuell wird dies aber nur als Hinweis betrachtet und kann daher auch von Suchmaschinen Crawler ignoriert werden.
Robots.txt – Mit dieser kleinen Datei, welche in dem Hauptverzeichnis deiner Website liegt, kannst du kontrollieren, was gecrawlt wird.
Passwortschutz – Möchtest du sichergehen, dass deine Website von Suchmaschinen gar nicht gecrawlt wird, ist die sicherste Methode ein Passwortschutz mittels htpasswd einzurichten.

So kannst du das Indexieren kontrollieren

Noindex – Durch Noindex mittels Meta-Robots-Tag weisst du Suchmaschinen hin, deine Seite nicht zu indexieren.
Passwortschutz – Suchmaschinen indexieren keine Inhalte, welche sich hinter Accounts oder Passwörtern befinden. Durch ein Login oder Passwortschutz hinderst du diese also daran.
Inhalt löschen – Eine sichere Variante, eine Suchmaschine daran zu hindern, deinen Inhalt zu indexieren, ist das Löschen des Inhaltes.

Die Googlebot IP-Adresse

Google hat mittlerweile eine Liste mit den verwendeten IP-Adressen veröffentlicht, welche für das Crawlen und den Aufruf einer Website genutzt werden. Sie ermöglicht es dir, den Googlebot anhand seiner einzigartigen IP-Adresse zu identifizieren.

Möchtest du den Googlebot aussperren oder sichergehen, dass auch wirklich nur der Googlebot deine Website crawlt, kannst du bzw. ein Server-Admin die Crawler blocken bzw. die Google IP-Adresse Whitelisten.

Wie hängen Googlebot und SEO zusammen?

SEO bzw. Suchmaschinenoptimierung zielen darauf ab, die Webseite so zu optimieren, dass Nutzer sie über die Suchmaschine besser finden. Die Grundbedingung ist, dass die jeweilige Webseite im Index von Google oder anderen Suchmaschinen wie Bing und Yahoo geführt wird. Für das Online-Marketing von Unternehmen ist unter anderem das Verständnis der Funktionsweise des Googlebots also essenziell.

Fazit

Möchtest du, dass die Website deines Unternehmens möglichst weit oben innerhalb der Suchergebnisse rankt, müssen die Inhalte sowie die Website selber entsprechend Crawler-freundlich gestaltet sein. Eine klare Struktur und ein Server, welcher mit den vielen Crawlinganfragen klarkommt, sind hier essentiell. Da der Googlebot zusätzlich von Verlinkungen lebt, sollte der Fokus jeder SEO Optimierung auf einer guten internen Verlinkung aufbauen.