Logotipo de Hospedaxes Galicia
» Dominios | » Hosting | » Diseño web | » Marketing digital | » Consultoría web | » Imagen corporativa

Mejorar indexación en sitios webs con gran número de páginas

8 Abril, 2008 por ivan

Uno de los mayores problemas con los que se encuentran nuestros clientes es el de indexación para el caso de sitios web (portales) formados por un gran número de páginas.

La indexación se conoce como el proceso de rastreo de un bot de un buscador para añadir a su base de datos las urls y contenidos de nuestro sitio web.

Este proceso es vital para el posicionamiento en buscadores ya que si los buscadores no nos indexan no habrá posibilidad de aparecer en los rankings.

Para el caso de sitios webs con un gran número de páginas (+50000 página) es común que los bots tengan problemas para acercarse al 100% de las páginas indexadas.

El funcionamiento de los sitemaps es sencillo y muy recomendado para mejorar la indexación, pero en el caso de este tipo de portales de gran contenido surge una nueva figura conocida como índice de sitemaps debido a la limitación de los propios sitemaps.
Todos los sistemas de lectura de sitemaps permiten varios sitemaps por dominio, pero cada archivo de sitemap no debe contener más de 50000 URLs y no debe ser más pesado de 10MB. Si se prefiere el archivo del sitemap puede ser comprimido en formato gzip para reducir los gastos en ancho de banda pero una vez descomprimido no debe superar los 10MB. Si se desean listar más de 50000 URLs se deben crear varios archivos sitemaps.

Si se van generar varios sitemaps, se debe listarlo cada uno en un archivo conocido como sitemap index. Este archivo no debe listar más de 1000 sitemaps y al igual que el sitemap normal no debe pesar más de 10MB y puede ser comprimido en formato gzip.

El formato XML de un archivo de índice de Sitemap es muy parecido al formato XML de un archivo de Sitemap. El archivo de índice de Sitemap utiliza las siguientes etiquetas XML:

  • <sitemapindex>: la etiqueta principal que delimita al archivo.
  • <sitemap>: la etiqueta principal de cada Sitemap que figura en el archivo (dependiente de<sitemapindex>).
  • <loc> : la ubicación del Sitemap (dependiente de <sitemap>).
  • <lastmod>: la fecha de la última modificación del Sitemap (opcional).

Nota: Un archivo de índice de Sitemap sólo puede especificar Sitemaps que se encuentren en la misma ubicación que el archivo de índice de Sitemap. Por ejemplo, http://www.ejemplo.es/sitemap_indice.xml puede incluir Sitemaps de http://www.ejemplo.es, pero no de http://www.susitio.es/ o http://suhost.ejemplo.es/. Igual que ocurre con los Sitemaps, el archivo de índice de su Sitemap debe estar codificado en UTF-8.

Índice de Sitemap en XML de muestra

El siguiente ejemplo muestra un índice de Sitemap en formato XML. El índice de Sitemap tiene dos Sitemaps:

<?xml version=”1.0″ encoding=”UTF-8″?>
<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<sitemap>
<loc>http://www.ejemplo.es/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.ejemplo.es/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>

Información extraída de las faq de sitemaps.org y del Centro de asistencia de webmasters

Entradas más comentadas en el blog

Dejar un comentario

 

 

 

 

 
Hospedaxes © 2007 . Todos los derechos reservados. A Coruña, Galicia (España).

RSS de Hospedaxes

Documento CSS válido Documento XHTML válido