Qu'est-ce que le fichier robots.txt et comment l'utiliser ?

Le fichier robots.txt est un fichier texte important qui est stocké sur le serveur d'un site web et qui indique aux robots d'indexation des moteurs de recherche quelles sections et quelles pages d'un site web ils peuvent visiter et inclure dans leur index. Dans cet article, vous apprendrez comment créer et configurer le fichier robots.txt et comment l'utiliser pour optimiser votre site web.

Principes fondamentaux du fichier robots.txt

Le fichier robots.txt est un fichier texte pur qui est stocké dans le répertoire principal (racine) d'un domaine. Il permet aux exploitants de sites web de contrôler l'accès des moteurs de recherche tels que Google au site web en bloquant certaines zones pour certains ou tous les robots de recherche. Il est important de noter que le fichier robots.txt est uniquement considéré comme une directive par les moteurs de recherche et que l'accès à certaines zones du site web ne peut être exclu de manière absolument certaine.

Fonction et importance du fichier robots.txt

La fonction principale du fichier robots.txt est de donner des instructions aux robots d'indexation des moteurs de recherche sur les parties de votre site web qu'ils sont autorisés à explorer et celles qu'ils ne sont pas autorisés à explorer. Vous pouvez ainsi autoriser ou interdire à certains robots d'indexation l'accès à certaines pages ou certains répertoires. Le fichier robots.txt est particulièrement utile pour gérer ce que l'on appelle le budget d'exploration, que les moteurs de recherche définissent pour chaque domaine. Ce budget détermine le nombre d'URL qui peuvent être lues et éventuellement indexées chaque jour.

Création et emplacement du fichier robots.txt

Pour créer un fichier robots.txt, tu as simplement besoin d'un éditeur de texte brut (tel que Notepad sous Windows ou vi sous Linux). Une fois le fichier créé, tu dois le placer dans le répertoire racine de ton domaine. Le fichier doit porter exactement le nom « robots.txt » et être accessible aux moteurs de recherche à l'adresse http://www.deinedomain.ch/robots.txt être accessible.

Structure et configuration du fichier robots.txt

Le fichier robots.txt est constitué d'enregistrements (records) composés chacun de deux parties. La première partie commence par le mot-clé User-agent et s'adresse à un robot de recherche auquel des instructions sont données dans la deuxième partie. Ces instructions sont généralement des interdictions de crawling, qui sont indiquées par le mot-clé Disallow être lancé et nommer ensuite un répertoire ou un ou plusieurs fichiers.

À titre d'exemple, tu peux consulter notre fichier this:matters robots.txt.

Instructions de base dans le fichier robots.txt

Les principales instructions que tu peux utiliser dans un fichier robots.txt sont les suivantes :

User-agent: Indiquez ici le nom du robot de recherche auquel les instructions suivantes doivent s'appliquer. Par exemple : User-agent: Googlebot. Si vous souhaitez vous adresser à tous les robots de recherche, utilisez un astérisque (*) comme caractère de remplacement : User-agent: *.
Disallow: cette instruction vous permet de bloquer l'accès à certains répertoires ou fichiers pour l'agent utilisateur spécifié. Par exemple : Disallow: /geheimes-verzeichnis/.
Allow: cette instruction vous permet d'autoriser l'accès à certains répertoires ou fichiers dans une zone précédemment bloquée. Par exemple : Allow: /geheimes-verzeichnis/oeffentlich/.

Fonctions avancées dans le fichier robots.txt

Certains moteurs de recherche prennent en charge des paramètres supplémentaires dans le fichier robots.txt, qui permettent d'affiner encore davantage les informations. Les fonctions suivantes sont par exemple prises en charge par Google :

Sitemap: cette instruction indique au moteur de recherche le plan du site XML de votre site web, qui se trouve à l'adresse indiquée. Exemple : Sitemap: http://www.deinewebsite.ch/sitemap.xml.
Crawl-delay: Cette instruction vous permet de réduire la vitesse d'exploration de certains robots en limitant l'intensité d'accès à votre site web. Exemple : User-agent: msnbot Crawl-delay: 15. Cette fonction est toutefois rarement utilisée.

Exemples de fichiers robots.txt

Tu trouveras ci-dessous quelques exemples de fichiers robots.txt et leurs fonctions :

Autoriser l'accès à tous les moteurs de recherche :

User-agent: *
Disallow:

Interdire l'accès à tous les moteurs de recherche :

User-agent: *
Disallow: /

Autoriser l'accès uniquement à un bot spécifique (par exemple, uniquement à Googlebot) :

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Interdire l'accès à un bot spécifique (par exemple, pour le bot Yandex) :

User-agent: *
Disallow:

User-agent: Yandex
Disallow: /

Bloquer l'accès à certains répertoires ou fichiers :

User-agent: *
Disallow: /geheimes-verzeichnis/
Disallow: /vertrauliche-datei.html

Conseils pour une utilisation correcte du fichier robots.txt

Vérifier les paramètres: après une mise à jour, testez votre fichier robots.txt, par exemple à l'aide des outils Google Search Console, afin de vous assurer qu'aucune section importante du site web n'est bloquée.
Bloquer les robots non pertinents: bloquez les robots des moteurs de recherche qui ne sont pas pertinents pour votre pays ou votre public cible afin d'éviter tout trafic inutile et toute charge excessive sur le serveur. Pour les robots qui ne respectent pas les instructions du fichier robots.txt, il peut être utile de bloquer leur adresse IP dans un fichier .htaccess.
Bloquer des contenus: bloquez les zones et les fichiers de votre site web qui ne doivent pas être indexés, tels que les zones protégées (par exemple, la zone de connexion) ou les zones avec des contenus dynamiques et très similaires qui peuvent générer des contenus dupliqués.
Ne bloquez pas: ne bloquez pas les fichiers JavaScript ou CSS, car cela empêche les moteurs de recherche de reconnaître et de comprendre la conception et les fonctionnalités de votre site web.
Lier le plan du site: liez votre plan du site dans le fichier robots.txt afin que les moteurs de recherche puissent y accéder facilement.

Conclusion

Le fichier robots.txt est un outil important pour la gestion de l'indexation de ton site web. Il te permet de contrôler l'accès des robots d'indexation des moteurs de recherche à certaines zones de ton site web et ainsi d'utiliser plus efficacement le budget d'indexation. En configurant correctement le fichier robots.txt, tu peux améliorer la visibilité de ton site web dans les résultats de recherche et augmenter la qualité du référencement. Veillez toutefois à tester et à vérifier soigneusement le fichier robots.txt afin d'éviter tout blocage involontaire de sections importantes de votre site web.