Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
ID-Act - Intelligence Stratégique
17 avril 2008

Google annonce son intention d'indexer le Web invisible

Google Webmaster Central Blog a annoncé récemment que Google allait commencer à indexer un certain nombre de formulaires HTML afin de découvrir de nouvelles pages ou URL qui échappaient jusque là à sa voracité. Concrètement, dès que le robot va rencontrer une balise <form> dans un site, il va essayer un certain nombre de requêtes en utilisant ce formulaire. Pour les zones de texte, les serveurs vont tester les résultats renvoyés par des mots-clés présents sur le site. Concernant la sélection des menus, boutons et cases à cocher, c'est directement les valeurs présentes dans le code HTML qui sera utilisé. Si le résultat est exploitable, ces pages seront indexées dans les Serps. Pour éviter les abus, seuls les sites présentant un fort degré de confiance seront crawlés avec ces nouvelles fonctionnalités. Cela signifie aussi que vous pouvez interdire ce type de requête en le précisant dans le fichier Robots.txt. Par ailleurs, les formulaires utilisant la méthode GET ou ceux nécessitant des informations utilisateur.
Ce même blog présente cette initiative comme la volonté de Google d'indexer la plus grande partie du Web dont celle appelée Web invisible.
Une étude datant de 2001 estime que le Web caché pourrait contenir 500 fois plus de ressources que le Web classique (celui indexé par les moteurs de recherche).
Vous pouvez à ce sujet lire cette page de l'encyclopédie Wikipédia.
Google Operating System cite un article qui relie le développement de cette technologie à l'acquisition de la société Transformic par Google. Je vous laisse le soin de lire attentivement ce papier, certes destiné aux anglophones, mais vraiment très intéressant.

source : http://googlexxl.blogspot.com/

Publicité
Commentaires
Publicité