Google comienza a rastrear a través de formularios
14 Abril, 2008 por ivanDe la mano del equipo de Crawling e indexing de Google nos enteramos de una nueva funcionalidad de GoogleBot que puede revolucionar los resultados de su buscador. Os transcribimos una traducción reducida del artículo origital:
Google está mejorando constantemente su cobertura de la web. En otras ocasiones ya han trabajado en cuestiones como escanear JavaScript y Flash para descubrir enlaces a nuevas páginas.
En los últimos meses han explorado algunos formularios HTML para descubrir nuevas páginas y urls que de otra manera no se podrían encontrar ni indexar, para usuarios que buscan a través de Google. Cuando encuentra el elemento <form> dentro de un sitio de alta calidad, si es posible se desarrollan una serie de consultas usando dicho formulario. Para las cajas de texto (inputs), los bots emplean consultas de palabras escogidas del sitio. Para menús de seletc, cajas de check y radio buttons en los formularios escogen entre los valores del HTML. Por cada página que se genera se trata de indexar la url que responde a la consulta. Si consideran que la página resultante es válida, interesante y que incluye texto que no está indexado todavía, se incluye ésta en el index de Google tal y como si fuera otra página web.
No es necesario indicar, que este experimento pretende mejorar la experiencia en las búsquedas. Sólo una pequeña parte de los sitios reciben este tratamiento y el bot siempre tendrá en cuenta las directivas robots.txt, nofollow, y noindex. Esto significa que si un formulario está prohibido en el robots.txt, no será indexada ninguna de las páginas que el formulario genere. De la misma manera, sólo procesamos formularios GET y evitan aquellos formularios que solicitan cualquier tipo de información de usuario. Por ejemplo, obviancualquier formulario que tenga un campo input de contraseña, o que estea asociado con información personal como logins, userids, contactos, etc… También prestarán cuidado con el impacto que pueda tener en sitios web y se limitarán a realizar un pequeño número de recopilaciones para cada sitio.
Las páginas web que se descubran en la indexación no supondrá un coste para el resto de páginas que ya están indexadas, así que esto no implicará reducir PageRank de otras páginas. Implicará, eso sí, una mayor exposición del sitio web en Google. Este cambio tampoco afectará a la indexación, ranking o a la selección de sitios web de un modo relevante.
Este expermento es parte de un amplio esfuerzo por parte de Google de incrementar la cobertura en al web. De hecho, los formularios HTML son la puerta de entrada a una enorme cantidad de datos situados más allá del alcance de los motores de búsqueda. Los términos Web profunda, Web escondida o web invisible han sido usados para referirse a esos contenidos invisibles para los usuarios de los motores de búsqueda. Indexando formularios HTML, son capaces de conducir a los usuarios de los buscadores a documentos que de otra manera no serían fácilmente localizables por los motores de búsqueda, proveyendo a usuarios y webmasters con una experiencia de búsqueda más detallada.


