Googlebot : comment fonctionne le robot d'indexation de Google

Avec près de 87 % de parts de marché, Google est le moteur de recherche le plus populaire au monde. En Suisse, près de 91 % des utilisateurs utilisent Google comme moteur de recherche. Cela fait de Google le leader incontesté du marché. Pour les propriétaires de sites web, c'est une bonne raison de s'intéresser au référencement naturel (SEO) et au Googlebot. Dans l'article suivant, je t'explique ce qu'est le Googlebot, comment il fonctionne et pourquoi il est si important.

Qu'est-ce que Googlebot ?

Googlebot est un robot d'indexation dont la tâche consiste à parcourir le World Wide Web. Le robot d'indexation, parfois appelé« spider », fonctionne exactement comme le navigateur Google Chrome lors de la navigation. Il suit les liens les uns après les autres, ce qui permet à Google d'obtenir une image complète d'un site web.

Le Googlebot veille à ce que les sites web et leurs contenus qu'il trouve soient éventuellement intégrés dans l'index Google et apparaissent ainsi dans les résultats de recherche.

Le fonctionnement du Googlebot

Der Googlebot funktioniert grundlegend ganz einfach. Er folgt einem Link, welcher im HTML Code mit einem <a>-Tag inklusive href-Attribut festgelegt wurde. Es gibt zu beachten, dass der Googlebot keinen Links folgt, die andere Formate verwenden.

Le départ se fait toujours à partir de sites web déjà connus, que Googlebot connaît déjà. Ici, on vérifie régulièrement si quelque chose a changé. Si un nouveau lien est présent dans l'« ancien contenu », le robot d'indexation le suit.

La fréquence d'indexation d'un site web par Googlebot varie et dépend de divers facteurs. La fréquence de mise à jour d'une page web est un élément important.

Lorsque Googlebot explore des URL qui affichent rarement de nouvelles informations, il augmente l'intervalle d'exploration. Si les sites web sont régulièrement modifiés et proposent régulièrement de nouvelles informations, Googlebot explore la page à des intervalles plus courts. Les sites d'actualités tels que les journaux et les blogs bénéficient ici d'explorations plus fréquentes et d'un budget d'exploration plus élevé, notamment grâce à Google Actualités et au plan du site d'actualités. Mais nous y reviendrons dans un autre article.

Une fois l'exploration terminée, Google enregistre toutes les données dans le cache afin d'éviter une exploration trop fréquente. Un autre robot Googlebot qui souhaite également explorer la page accède d'abord au cache. Cela permet d'économiser des ressources et de ne pas surcharger le serveur sur lequel se trouve le site web.

Notez que Googlebot ne peut explorer que les 15 premiers Mo d'un fichier HTML. Chaque ressource référencée dans le code HTML, telle que CSS et JavaScript, est récupérée séparément et chaque récupération est soumise à la même restriction de taille de fichier. Après les 15 premiers Mo du fichier, Googlebot arrête l'exploration et ne prend en compte que les 15 premiers Mo du fichier pour l'indexation.

Documentation pour les développeurs Google

Les différents types de Googlebots

Il existe différents types de Googlebots. Une version se charge par exemple d'explorer les sites Web normaux consultés depuis un ordinateur, tandis que lebot pour smartphones explore uniquement la version mobile d'un site Web et en analyse le contenu. Cette dernière version est privilégiée depuis quelque temps, le mot d'ordre étant « Mobile First ».

Tu trouveras ci-joint la liste complète de tous les robots d'indexation Googlebot:

Image Googlebot : utilisée pour explorer les octets d'images pour Google Images et pour les produits qui dépendent d'images.
Googlebot-News : Googlebot-News utilise Googlebot pour explorer les articles d'actualité, mais respecte le jeton d'agent utilisateur Googlebot-News existant.
Vidéo Googlebot : utilisée lors de l'exploration des octets vidéo pour Google Vidéos et pour les produits qui dépendent de vidéos.
Google-InspectionTool : Google-InspectionTool est le robot d'indexation utilisé par les outils de test de recherche tels que le test de résultats de recherche enrichis et le vérification d'URL dans la Search Console. À l'exception de l'agent utilisateur et du jeton d'agent utilisateur, il imite le Googlebot.
GoogleOther: robot d'indexation général pouvant être utilisé par différentes équipes produit pour récupérer le contenu accessible au public sur les sites Web. Il peut par exemple être utilisé pour une indexation unique à des fins de recherche et développement interne.
Google StoreBot : Google StoreBot explore notamment les pages contenant des détails sur les produits, les paniers d'achat et les pages de paiement.

Les données du journal du serveur, qui jouent également un rôle important dans l'optimisation pour les moteurs de recherche, permettent de savoir quel robot Googlebot a exploré votre site web. Nous publierons prochainement un article de blog à ce sujet.

Comment contrôler le Googlebot

Google offre aux propriétaires de sites web plusieurs possibilités pour contrôler le Googlebot. Cela vous permet de déterminer quels contenus sont indexés ou explorés et n'apparaissent donc pas dans les résultats de recherche.

De nombreux moteurs de recherche sérieux suivent les instructions que j'ai répertoriées ci-dessous.

Comment contrôler l'exploration

Nofollow – L'attribut de lien Nofollow ou la balise Meta-Robots indiquent à un robot d'indexation qu'il ne doit pas suivre un lien. Actuellement, cela n'est toutefois considéré que comme une indication et peut donc être ignoré par les robots d'indexation des moteurs de recherche.
Robots.txt – Ce petit fichier, qui se trouve dans le répertoire principal de ton site web, te permet de contrôler ce qui est exploré.
Protection par mot de passe – Si tu veux t'assurer que ton site web ne soit pas indexé par les moteurs de recherche, la méthode la plus sûre consiste à mettre en place une protection par mot de passe à l'aide de htpasswd.

Voici comment contrôler l'indexation

Noindex – Grâce à Noindex via la balise Meta Robots, vous indiquez aux moteurs de recherche de ne pas indexer votre page.
Protection par mot de passe – Les moteurs de recherche n'indexent pas les contenus protégés par des comptes ou des mots de passe. En utilisant une connexion ou une protection par mot de passe, tu les empêches donc d'accéder à ces contenus.
Supprimer le contenu – Une manière sûre d'empêcher un moteur de recherche d'indexer votre contenu est de le supprimer.

L'adresse IP de Googlebot

Google a publié une liste des adresses IP utilisées pour l'exploration et l'accès à un site web. Elle vous permet d'identifier le Googlebot grâce à son adresse IP unique.

Si vous souhaitez bloquer Googlebot ou vous assurer que seul Googlebot explore votre site web, vous ou un administrateur de serveur pouvez bloquer les robots d'exploration ou mettre l'adresse IP de Google sur liste blanche.

Quel est le lien entre Googlebot et le référencement naturel ?

Le référencement naturel (SEO) ou optimisation pour les moteurs de recherche vise à optimiser un site web afin que les utilisateurs puissent le trouver plus facilement via les moteurs de recherche. La condition préalable est que le site web concerné soit répertorié dans l'index de Google ou d'autres moteurs de recherche tels que Bing et Yahoo. Pour le marketing en ligne des entreprises, il est donc essentiel de comprendre le fonctionnement du robot Googlebot.

Conclusion

Si vous souhaitez que le site web de votre entreprise soit classé le plus haut possible dans les résultats de recherche, le contenu et le site web lui-même doivent être conçus de manière à faciliter le référencement. Une structure claire et un serveur capable de traiter les nombreuses demandes de référencement sont ici essentiels. Étant donné que le Googlebot se nourrit également de liens, toute optimisation SEO doit se concentrer sur un bon référencement interne.