¿Que es el sitemap.xml y cómo se crea?

Los Sitemaps son una forma fácil que tienen los webmasters para informar a los motores de búsqueda de las páginas que se pueden rastrear en sus sitios web.

Un Sitemap, en su forma más sencilla, es un archivo XML que enumera las URL de un sitio junto con metadatos adicionales acerca de cada una de ellas: la última actualización, frecuencia de modificación, importancia, en relación con las demás URL del sitio; así, los motores de búsqueda pueden llevar a cabo rastreos del sitio de una forma más inteligente.

Los rastreadores web suelen encontrar páginas a partir de vínculos del sitio y a partir de otros sitios. Sitemaps ofrece estos datos para que los rastreadores compatibles puedan seleccionar todas las URL del Sitemap y obtengan información de ellas mediante los metadatos asociados.

El uso del protocolo Sitemaps no garantiza que las páginas web se incluyan en los motores de búsqueda, pero proporciona sugerencias para mejorar el trabajo de los rastreadores web al rastrear su sitio.

Sitemap 0.90 está sujeto a las condiciones de la licencia Attribution-ShareAlike Creative Commons License y es compatible con muchos servicios, incluidos Google, Yahoo! y Microsoft.

Formato XML

Este documento describe el esquema XML para el protocolo Sitemap.

El formato del protocolo Sitemap consta de etiquetas XML. Todos los valores de datos de un Sitemap deben incluir caracteres de escape de entidad. El propio archivo debe estar codificado en UTF-8.

El Sitemap debe:

  • Comenzar con una etiqueta de apertura <urlset> y terminar con una de cierre </urlset>.
  • Especificar el espacio de nombres (protocolo estándar) en la etiqueta urlset.
  • Incluir una entrada <url> para cada dirección URL como una etiqueta XML principal.
  • Incluir una entrada secundaria <loc> para cada etiqueta principal <url>.

Las demás etiquetas son opcionales. La compatibilidad de estas etiquetas opcionales puede variar en función del motor de búsqueda. Consulte la documentación específica de cada uno de ellos para obtener información detallada.

Ejemplo de un sitemap

El siguiente ejemplo muestra un Sitemap que contiene únicamente una URL y usa todas las etiquetas opcionales.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://megazona.com/</loc>
<changefreq>hourly</changefreq>
<priority>1.00</priority>
</url>
</urlset>

Definiciones de las etiquetas XML

Las etiquetas XML disponibles se describen a continuación.

<urlset>

Obligatorio

Encapsula el archivo y hace referencia al protocolo estándar actual.

<url>

Obligatorio

Etiqueta principal de cada entrada de URL. Las demás etiquetas son secundarias de esa.

<loc>

Obligatorio

URL de la página. Esta URL debe comenzar con el protocolo (por ej., http) y acabar con una barra diagonal, si su servidor web así lo requiere. Este valor debe contener menos de 2.048 caracteres.

<lastmod>

Opcional

Fecha de la última modificación del archivo. Esta fecha debe encontrarse en formato Fecha y hora de W3C. Este formato le permite omitir la parte referente a la hora, si así lo desea, y utilizar AAAA-MM-DD.

Tenga en cuenta que esta etiqueta es independiente de la cabecera “If-Modified-Since (304)” que puede mostrar el servidor y que los motores de búsqueda pueden utilizar la información de ambas fuentes de forma diferente.

<changefreq>

Opcional

Frecuencia con la que puede cambiar esta página. Este valor proporciona información general a los motores de búsqueda y es posible que no se corresponda exactamente con la frecuencia de rastreo de la página. Valores aceptados:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

El valor “always” (siempre) debe utilizarse para describir documentos que cambian cada vez que se obtiene acceso a ellos. El valor “never” (nunca) debe utilizarse para describir direcciones URL archivadas.

Tenga en cuenta que el valor de esta etiqueta se considera una sugerencia y no una orden.

A pesar de que los rastreadores de motores de búsqueda puedan tener en cuenta esta información a la hora de tomar decisiones, pueden rastrear páginas marcadas “hourly” (cada hora) con menor frecuencia de lo que indica la marca, así como rastrear páginas marcadas “yearly” (cada año) con más asiduidad.

Asimismo, pueden rastrear periódicamente páginas marcadas “never” (nunca) para poder manejar los cambios inesperados que se produzcan en ellas.

<priority>

Opcional

La prioridad de esta dirección URL es relativa con respecto a las demás URL de su sitio. Los valores válidos abarcan desde 0,0 a 1,0. Este valor no afecta a la comparación de sus páginas con respecto a las de otros sitios; únicamente permite informar a los motores de búsqueda de las páginas que considera más importantes para los rastreadores.

La prioridad predeterminada de una página es 0,5.

Tenga en cuenta que la prioridad que asigne a la página no suele influir en la posición de sus URL en las páginas de resultados de los motores de búsqueda. Los motores de búsqueda pueden utilizar esta información para elegir entre varias URL del mismo sitio, de modo que puede emplear esta etiqueta para incrementar las probabilidades de que sus páginas más importantes se incluyan en un índice de búsqueda.

Asimismo, tenga en cuenta que la asignación de alta prioridad a todas las URL de su sitio probablemente no le servirá de ayuda, dado que la prioridad es relativa y sólo se utiliza para elegir entre las distintas URL de su sitio.

Caracteres de escape del sitemap.xml

Carácter Código de caracteres de escape
Símbolo de unión & &amp;
Comillas simples &apos;
Comillas &quot;
Mayor que > &gt;
Menor que < &lt;

Creación de un indice de sitemaps

Puede proporcionar varios archivos de Sitemap, pero cada uno de ellos deberá contener un máximo de 50.000 direcciones URL y no superar los 50 MB (52,428,800 bytes). Si lo desea, puede comprimir sus archivos de Sitemap con gzip para reducir sus requisitos de ancho de banda; no obstante, el archivo de Sitemap comprimido no debe superar los 50 MB.

Si desea incluir más de 50.000 direcciones URL, deberá crear varios archivos de Sitemap.

Si proporciona varios Sitemaps, debe enumerarlos todos en un archivo de índice de Sitemap.

Los archivos de índice de Sitemap no pueden contener más de 50.000 Sitemaps y no deben superar los 50 MB (52,428,800 bytes), aunque se pueden comprimir.

Es posible disponer de más de un archivo de índice de Sitemap. El formato XML de un archivo de índice de Sitemap es muy parecido al formato XML de un archivo de Sitemap.

El archivo de índice de Sitemap debe:

  • Comenzar con una etiqueta de apertura <sitemapindex> y terminar con una de cierre </sitemapindex>.
  • Incluir una entrada <sitemap> para cada Sitemap como una etiqueta XML principal.
  • Incluir una entrada secundaria <loc> para cada etiqueta principal <sitemap>.
  • La etiqueta opcional <lastmod> también está disponible para archivos de índice de Sitemap.

Nota: Un archivo de índice de Sitemap sólo puede especificar Sitemaps que se encuentren en la misma ubicación que el archivo de índice de Sitemap.

Por ejemplo, http://www.susitio.es/sitemap_index.xml puede incluir Sitemaps en http://www.susitio.es, pero no en http://www.ejemplo.es o http://suhost.susitio.es. Igual que ocurre con los Sitemaps, el archivo de índice de su Sitemap debe estar codificado en UTF-8.

Índice XML de Sitemap de ejemplo

El siguiente ejemplo muestra un índice de Sitemap que incluye dos Sitemaps:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>

Nota: las direcciones URL de Sitemap, como todos los valores de sus archivos XML, deben incluir caracteres de escape de entidad.

Definiciones de etiquetas XML de índice de Sitemap

<sitemapindex>

Obligatorio

Encapsula información acerca de todos los Sitemaps del archivo.

<sitemap>

Obligatorio

Encapsula información acerca de un Sitemap concreto.

<loc>

Obligatorio

Identifica la ubicación del Sitemap. Esta ubicación puede ser un Sitemap, un archivo Atom, un archivo RSS o un archivo de texto.

<lastmod>

Opcional

Identifica la hora a la que se modificó el Sitemap correspondiente. No es la hora de modificación de alguna de las páginas incluidas en el Sitemap. El valor de la etiqueta lastmod debe encontrarse en formato Fecha y hora de W3C.

Al proporcionar la marca horaria de la última modificación, permite que los rastreadores de motores de búsqueda obtengan únicamente un subconjunto de los Sitemaps del índice, es decir, el rastreador sólo podrá obtener Sitemaps que han sido modificados a partir de una fecha concreta.

Este mecanismo de obtención de Sitemap incremental permite un rápido descubrimiento de nuevas URL en sitios de gran tamaño.