All time Branchez-vous Branche Toi BetterBe Nerds Carrières

Les robots.txt standardisés par Google, au détriment du Noindex

Par Branchez-vous – le dans Actualités

Cette année, les fichiers robots.txt de Google fêtent leur 25è printemps. Utilisés pour éviter l’indexation ou la désindexation de certaines pages web, ces fichiers sont largement employés par les éditeurs web. Mais ils ne sont jamais devenus une norme internet. À l’occasion de cet anniversaire, Google a l’intention de changer les choses en proposant de standardiser son interprétation.

Qu’est-ce que le fichier robots.txt

Google explique le principe des robots.txt dans un texte de présentation.

En clair, ce fichier texte est proposé chez la plupart des sites internet. Il permet, dans sa globalité de définir les règles que doivent suivre les robots ou les crawlers. Ces fichiers sont extrêmement utiles pour les éditeurs de site internet ainsi que les robots. Dans tous les cas, ces fichiers sont installés à la racine d’un site web.

Lorsqu’un robot veut crawler un site, il devra d’abord se baser sur ce fichier et définir ce qu’il peut et ce qu’il ne peut pas faire. Dans cette optique, les éditeurs de site internet peuvent personnaliser leur fichier en fonction de leurs attentes, leurs objectifs et leurs sites internet.

Les règles définies par Google

Google a donc l’intention de standardiser le fichier robots.txt. pour que tous les robots crawlers puissent avoir la même interprétation. Pour cela, la firme est en collaboration avec l’auteur original du protocole de 1994, plusieurs webmasters ainsi que les autres moteurs de recherche. Voici les principales propositions de Google  :

  • Google veut permettre à tout protocole d’accéder à robots.txt
  • Les développeurs se doivent d’analyser les 500 premiers kibibytes
  • Google propose un cache maximum de 24 heures
  • Si le fichier n’est pas accessible, les crawlers doivent explorer les pages interdites

Cette demande a été soumise à l’IETF : « L’ébauche proposée du REP reflète plus de 20 ans d’expérience dans le monde réel en matière de règles robots.txt, utilisées à la fois par Googlebot et d’autres grands robots, ainsi que par environ un demi-milliard de sites internet qui ont confiance au REP.  Il ne change pas les règles de base, créées en 1994, mais définit tous les scénarios pour l’analyser et l’adaptation de robots.txt et les étend au web moderne ».

Les dernières nouvelles

Google veut acheter votre visage pour 5 $ en carte-cadeau

Google veut acheter votre visage pour 5 $ en carte-cadeau

Matthieu Carlier -
Tinder se passe de Google Play, comme Spotify et Netflix

Tinder se passe de Google Play, comme Spotify et Netflix

Branchez-vous -
Huawei aurait aidé à installer un réseau mobile en Corée du Nord

Huawei aurait aidé à installer un réseau mobile en Corée du Nord

Branchez-vous -

Plus d'actualités

Des Nintendo Switch offertes aux passagers d’un avion

Des Nintendo Switch offertes aux passagers d’un avion

Branchez-vous -
AI Portraits : cette IA transforme vos portraits en œuvres d’art

AI Portraits : cette IA transforme vos portraits en œuvres d’art

Matthieu Carlier -
VLC : une faille de sécurité majeure découverte dans le lecteur multimédia

VLC : une faille de sécurité majeure découverte dans le lecteur multimédia

Matthieu Carlier -

Populaires

Instagram inondé de photos d’une ado égorgée, la communauté se mobilise

Instagram inondé de photos d’une ado égorgée, la communauté se mobilise

Branchez-vous -
Bug lors de Prime Day d’Amazon : du matériel photo coûtant 13 000$ vendu 94$

Bug lors de Prime Day d’Amazon : du matériel photo coûtant 13 000$ vendu 94$

Matthieu Carlier -
SpaceX : nouvel échec, la fusée StarHopper part en fumée

SpaceX : nouvel échec, la fusée StarHopper part en fumée

Branchez-vous -

Branchez-vous

Branchez-vous diffuse l'actualité techno, des bancs d'essai de divers appareils et gadgets, et des chroniques spécialisées.