Índice
Antes de comenzar
Descarga de los archivos de programa del Generador Sitemap
Creación de un archivo de configuración
Carga de los archivos a su servidor web
Ejecución de la secuencia de comandos del Generador Sitemap
Envío de su Sitemap a Google
Solución de problemas
| Antes de comenzar |
El Generador Sitemap es una secuencia de comandos Python que crea un Sitemap para su sitio usando el protocolo Sitemap. Esta secuencia de comandos puede crear Sitemaps a partir de listas de URL, directorios de servidores web y registros de acceso. Para poder usar esta secuencia de comandos:
- Debe poder conectarse y ejecutar secuencias de comandos en su servidor web.
- Su servidor web debe tener instalado Python 2.2 o una versión posterior.
- Debe conocer el comando que inicia Python. (Generalmente es python, pero puede variar según la instalación. Por ejemplo, si el servidor web tiene dos versiones de Python instaladas, la versión anterior se invoca con el comando python y la versión posterior se invoca a través del comando python2).
- Debe conocer la ruta del directorio hacia su sitio. Si su servidor web aloja un sitio, la ruta puede ser var/www/html. Si tiene un servidor virtual que aloja varios sitios, la ruta puede ser del tipo home/virtual/site1/fst/var/www/html.
- Debe poder cargar archivos a su servidor web, por ejemplo, mediante FTP.
- Si va a generar una lista de URL basadas en registros de acceso, debe conocer la codificación utilizada para estos registros y la ruta completa.
Si tiene dudas sobre esta información, puede consultarlo con su empresa de alojamiento web.
Ahora ya está preparado para empezar. A continuación le ofrecemos una descripción general de lo que tendrá que hacer.
- Descargue los archivos de programa del Generador Sitemap. Extraiga los archivos a un directorio local.
- Cree un archivo de configuración para su sitio con el archivo proporcionado example_config.xml como plantilla. Modifique este archivo como sea necesario y guárdelo.
- Cargue los archivos necesarios en su servidor web.
- Ejecute sitemap_gen.py.
- Añada el Sitemap generado a su cuenta de Herramientas para webmasters de Google.
- Configure una secuencia de comandos recurrente. (opcional)
Si no puede utilizar el Generador Sitemap, puede añadir un Sitemap a su cuenta de Herramientas para webmasters de Google en otro formato, como un archivo de texto. También puede obtener vínculos a programas de terceros que sean compatibles con Google Sitemaps aquí.
| 1. Descarga de los archivos de programa del Generador Sitemap |
Los archivos del Generador Sitemaps están disponibles en formato ZIP y GZ en esta ubicación:
http://sourceforge.net/project/showfiles.php?group_id=137793&package_id=153422
Una vez que haya descargado el archivo, extráigalo a un directorio local. Busque los siguientes archivos:
- README: contiene la información más reciente acerca de esta herramienta.
- sitemap_gen.py: es la secuencia de comandos Python que genera su Sitemap.
- example_config.xml: es el archivo de plantilla de configuración que debe usar para especificar la configuración de su sitio.
- example_urllist.txt: la plantilla de lista de URL que puede utilizar si desea crear un Sitemap basado en un grupo de URL que especifique.
| 2a. Creación de un archivo de configuración |
En esta sección se proporcionan instrucciones detalladas para crear un archivo de configuración. También se proporciona una referencia completa de las opciones disponibles. Si crea Sitemaps móviles, consulte las directrices adicionales pertinentes.
Para poder crear un archivo de configuración para su sitio, debe disponer de la siguiente información:
- La URL base de su sitio, como http://www.example.com/sitemap.xml/. Asegúrese de incluir el protocolo, como http://. Por ejemplo, http://www.google.com es una URL base válida, pero www.google.com no lo es.
- La ruta del servidor web a la ubicación donde desea almacenar el Sitemap. Por lo general, ésta es la ruta a la URL base, dado que el Sitemap no puede contener URL que estén en un directorio de nivel superior a la ubicación del Sitemap. Cuando ejecute el Generador Sitemap de Google, creará el Sitemap y lo colocará en la ubicación que especifique.
- Los métodos con los que desea que el Generador Sitemap cree su Sitemap. Puede emplear una combinación de métodos. Están disponibles los siguientes:
-
- URL: enumera URL individuales de esta sección del archivo de configuración, junto con información acerca de cada una de las URL. Habitualmente, deberá emplear éste y otro método para incluir manualmente las URL que otros métodos no seleccionarían.
- Lista de URL: indica el archivo de configuración de un archivo de texto que contiene una lista de URL. Le recomendamos que utilice este método si ya existe el archivo de texto o si utiliza una secuencia de comandos para generar una lista de URL.
- Rutas de directorio: especifican las rutas del directorio de su sitio y las URL que corresponden a esas rutas. El Generador Sitemap creará una lista de URL según los contenidos de esos directorios. Quizás desee utilizar este método si su sitio comprende archivos HTML estáticos.
- Registros de acceso: apuntan a la ruta de sus archivos de registro. El Generador Sitemap creará una lista de URL en función de las URL incluidas en los registros. Quizás desee utilizar este método si su sitio comprende páginas dinámicas.
- Sitemap: apunta a los Sitemaps que ha creado con el Generador Sitemap. Este cliente creará un solo Sitemap que incluya las URL de cada Sitemap. Puede utilizar este método si ya ha creado varios Sitemaps pequeños y desea combinarlos en uno de mayor tamaño.
Para crear un archivo de configuración, siga estos pasos:
- Abra el archivo example_config.xml en un editor de textos. Guárdelo como un archivo nuevo (como config.xml o mysite_config.xml).
- Busque la sección de definición del sitio:
- Cambie el valor base_url por la URL de su sitio.
- Cambie el valor store_into por la ruta a su servidor web en el que desea almacenar el Sitemap y el nombre de archivo que desea utilizar para ese Sitemap. Generalmente, ésta es la ruta a la URL de base ya que Google únicamente puede aceptar URL situadas en el mismo nivel que el directorio del Sitemap o en subdirectorios de éste. Puede especificar una ruta relativa del directorio donde carga la secuencia de comandos o una ruta completa desde la raíz de su servidor web. Si carga la secuencia de comandos a su directorio URL base, basta con que especifique el nombre del archivo.
- Busque las secciones de métodos de generación que comienzan con ** MODIFY or DELETE **. Cada una de ellas corresponde a un método de generación de Sitemaps.
- Suprima las secciones de los métodos que no va a utilizar.
- Siga las instrucciones que encontrará a continuación relativas a los métodos que va a usar.
- Busque la sección de definición de filtros:
- Una vez que haya realizado todos los cambios en su sitio, guarde el archivo.
<site base_url="http://www.example.com/" store_into="/var/www/docroot/sitemap.xml.gz" verbose="1">
Busque la siguiente sección:
<!-- ** MODIFY or DELETE ** "url" nodes specify individual URLs to include in the map. <br> Required attributes: href - the URL Optional attributes: lastmod - timestamp of last modification (ISO8601 format) changefreq - how often content at this URL is usually updated priority - value 0.0 to 1.0 of relative importance in your site --> <url href="http://www.example.com/stats?q=name" /> <url href="http://www.example.com/stats?q=age" lastmod="2004-11-14T01:00:00-07:00" changefreq="yearly" priority="0.3" />
En esta sección se ofrecen dos ejemplos: el primero sólo incluye el atributo necesario y el segundo contiene el atributo necesario además de los atributos opcionales.
Use este formato para cada una de las URL que desee incluir. El atributo changefreq brinda a Google una idea general de la frecuencia con la que se actualiza la URL. Esto ayuda a Google a conocer la frecuencia con la que debe visitar la página para ver el nuevo contenido. El atributo priority ofrece a Google información sobre la importancia relativa de esta página en comparación con las otras páginas del sitio. Este atributo no tiene ningún efecto sobre la forma en que Google compara su página con otras las páginas de otros sitios, sólo permite a Google saber qué páginas del sitio usted considera más importantes.
Busque la siguiente sección:
<!-- ** MODIFY or DELETE ** "urllist" nodes name text files with lists of URLs. An example file "example_urllist.txt" is provided. Required attributes: path - path to the file Optional attributes: encoding - encoding of the file if not US-ASCII --> <urllist path="example_urllist.txt" encoding="UTF-8" />
Use este formato para indicar la ruta y el nombre del archivo de texto que contiene su lista de URL. Puede usar el archivo example_urllist.txt proporcionado como plantilla para ese archivo de texto. Puede especificar una ruta relativa o una completa al servidor web. Por ejemplo, si el Generador Sitemap y el archivo urlist.txt se encuentran en el mismo directorio, basta con que especifique el nombre de archivo del archivo .txt. Si crea un archivo de texto con una codificación que sea UTF-8, puede utilizar el atributo encoding para indicar esta codificación. Si tiene varios archivos .txt, puede usar comodines. Por ejemplo:
<urllist path="example_urllist*.txt" encoding="UTF-8" />
Para cada URL que incluya en el archivo de texto, puede especificar la última fecha de modificación, cambiar la frecuencia y la prioridad. Consulte la sección de referencia del archivo de texto URLlist para obtener información completa sobre la estructura de este archivo.
Busque la siguiente sección:
<!-- ** MODIFY or DELETE ** "directory" nodes tell the script to walk the file system and include all files and directories in the Sitemap. Required attributes: path - path to begin walking from url - URL equivalent of that path Optional attributes: default_file - name of the index or default file for directory URLs --> <directory path="/var/www/icons" url="http://www.example.com/images/" /> <directory path="/var/www/docroot" url="http://www.example.com/" default_file="index.html" />
En esta sección se ofrecen dos ejemplos. Si todas sus páginas se encuentran dentro de los subdirectorios de una ruta, entonces únicamente tendrá que incluir una entrada. Sin embargo, si hay diversas rutas a las páginas de su sitio, incluya una entrada para cada una.
Recuerde que todas las URL deben comenzar con la URL base que especificó en el paso 3. Los ejemplos que se proporcionan en el archivo example_config.xml tienen URL que comienzan con http://www.example.com/. Por lo tanto, ambas URL son válidas.
Sustituya los ejemplos de entradas por entradas de su sitio. Muchos sitios sólo tendrán una entrada que apunta a la URL base. Asegúrese de que el valor path sea la ruta completa al directorio en su servidor web. Verifique que el valor url sea la URL completa, incluido el protocolo (como http) y una barra diagonal, si es necesario.
Puede utilizar el parámetro default_file para especificar el nombre de archivo que utiliza su servidor como la página predeterminada de un directorio. En el ejemplo anterior, /var/www/docroot se resuelve en http://www.example.com/index.html. No es necesario especificarlo. No obstante, si lo hace, el Generador Sitemap incluirá la página que se asigna a cada subdirectorio sólo una vez (en lugar de enumerar la URL del directorio y la URL del nombre del archivo) y utilizará la última fecha modificada del archivo (en lugar del directorio) para extraer el atributo lastmod (de la última modificación) de esa página.
Busque la siguiente sección:
<!-- ** MODIFY or DELETE ** "accesslog" nodes tell the script to scan webserver log files to extract URLs on your site. Both Common Logfile Format (Apache's default logfile) and Extended Logfile Format (IIS's default logfile) can be read. Required attributes: path - path to the file Optional attributes: encoding - encoding of the file if not US-ASCII --> <accesslog path="/etc/httpd/logs/access.log" encoding="UTF-8" /> <accesslog path="/etc/httpd/logs/access.log.0" encoding="UTF-8" /> <accesslog path="/etc/httpd/logs/access.log.1.gz" encoding="UTF-8" />
En esta sección se ofrecen tres ejemplos. Debe sustituir estas entradas e incluir una entrada para cada archivo de registro. Asegúrese de que el valor path sea la ruta completa y el nombre del archivo de su servidor web. Si los archivos de registro no están codificados como US-ASCII o UTF-8, utilice el atributo opcional de encoding para especificar la codificación. En lugar de enumerar cada uno de los archivos de registro, puede usar comodines. Por ejemplo, en los ejemplos anteriores podría incluir la siguiente entrada que incluiría los tres archivos de registro:
<accesslog path="/etc/httpd/logs/access.log*" encoding="UTF-8" />
El Generador Sitemap asigna prioridad a las URL que encuentra en los registros en función de la frecuencia de acceso a cada una de ellas. Por ejemplo, se otorgará mayor prioridad a una URL a la que se ha accedido 100 veces que a una a la que se ha accedido dos veces. La asignación real de prioridad es relativa y depende de cada URL en comparación con las demás URL del sitio.
Busque la siguiente sección:
<!-- ** MODIFY or DELETE ** "sitemap" nodes tell the script to scan other Sitemap files. This can be useful to aggregate the results of multiple runs of this script into a single Sitemap. Required attributes: path - path to the file --> <sitemap path="/var/www/docroot/subpath/sitemap.xml" />
En esta sección se ofrece un ejemplo. Debe sustituir esta entrada e incluir una entrada para cada Sitemap que desee añadir. Asegúrese de que el valor sea la ruta completa y el nombre del archivo de su servidor web. También puede incluir Sitemaps en formato gzip si su extensión es .gz. En lugar de enumerar cada uno de los Sitemaps, puede usar comodines. Por ejemplo, la entrada siguiente incluiría todos los Sitemaps que empezaran por la palabra “sitemap” y tuvieran la extensión .xml:
<sitemap path="/var/www/docroot/subpath/sitemap*.xml" />
El Generador Sitemap extrae todas las URL y los datos opcionales de cada una de ellas en cada Sitemap de la lista y crea un Sitemap con esta información. Por el momento, no podemos garantizar que este método funcione con los Sitemaps creados con herramientas distintas del Generador Sitemap.
<!-- ******************************************************** FILTERS Filters specify wild-card patterns that the script compares against all URLs it finds. Filters can be used to exclude certain URLs from your Sitemap, for instance if you have hidden content that you hope the search engines don't find. Filters can be either type="wildcard", which means standard path wildcards (* and ?) are used to compare against URLs, or type="regexp", which means regular expressions are used to compare. Filters are applied in the order specified in this file. An action="drop" filter causes exclusion of matching URLs. An action="pass" filter causes inclusion of matching URLs, shortcutting any other later filters that might also match. If no filter at all matches a URL, the URL will be included. Together you can build up fairly complex rules. The default action is "drop". The default type is "wildcard". You can MODIFY or DELETE these entries as appropriate for your site. However, unlike above, the example entries in this section are not contrived and may be useful to you as they are. ********************************************************* --> <!-- Exclude URLs that end with a '~' (IE: emacs backup files) --> <filter action="drop" type="wildcard" pattern="*~" /> <!-- Exclude URLs within UNIX-style hidden files or directories --> <filter action="drop" type="regexp" pattern="/\.[^/]*" />
Puede usar el filtro para excluir URL concretas del Sitemap que ha creado. Le recomendamos que cree una lista más clara para reducir listados redundantes, así como para evitar la indexación de determinadas URL. Tenga en cuenta que si usa un archivo robots.txt para evitar la indexación de URL, podría ocurrir que, incluso si las URL están incluidas en su Sitemap, Google no realice búsquedas de ellas ni las indexe.
Puede utilizar cualquiera o todos los métodos de filtrado. Puede eliminar las entradas que no necesite y crear entradas adicionales, si así lo desea. A continuación se incluyen ejemplos de usos.
<filter action="drop" type="wildcard" pattern="*.jpg" />
Este filtro excluye las URL cuya extensión es .jpg. Le recomendamos que incluya un filtro similar si todas las imágenes de su sitio están incrustadas en páginas HTML y no debe accederse a ellas como URL independientes.
<filter action="pass" type="wildcard" pattern="*.htm*" /> <filter action="drop" type="wildcard" pattern="*" />
Este filtro incluye todos los archivos .htm* pero excluye todo lo demás.
Referencia sintáctica del archivo de configuración
A continuación encontrará una explicación completa de toda la sintaxis del archivo de configuración. Todos los códigos comienzan con una código de muestra seguido de una descripción de los atributos.
site
Código necesario al principio de cada uno de los archivos de configuración.
<site base_url="http://www.example.com/" store_into="/var/www/html/sitemap.xml.gz" verbose="1" supress_search_engine_notify="1" default_encoding="UTF-8">
base_url |
obligatorio | La ruta HTTP de la base de su sitio web: sólo las URL que comienzan con esta base pueden incluirse en el Sitemap |
store_into |
obligatorio | La ruta al servidor web del archivo de resultado deseado. La secuencia de comandos creará este archivo, de modo que no es necesario crearlo antes de ejecutar la secuencia. |
verbose |
opcional | Introduzca un número de 0 a 3; los números más altos se corresponderán a un incremento de información de depuración |
suppress_search_engine_notify |
opcional | Inhabilite la notificación del motor de búsqueda introduciendo “1″ para poder realizar pruebas |
default_encoding |
opcional | Especifique la codificación de caracteres que debe aplicarse a las rutas del sistema de archivos y a las URL |
url
Código opcional que puede usar para enumerar las URL de su sitio.
<url href="http://www.example.com/stats?q=age" lastmod="2004-11-14T01:00:00-07:00" changefreq="yearly" priority="0.3" />
href |
obligatorio | La ruta HTTP de la base de su sitio web: sólo las URL que comienzan con esta base pueden incluirse en el Sitemap |
lastmod |
opcional | La fecha de la última modificación de la URL en formato W3C de fecha y hora (AAAA-MM-DDThh:mm:ss+00:00). Puede omitir la parte referente al tiempo. Ejemplos: “2005-02-21T18:00:15+00:00″ “2005-02-21″ |
changefreq |
opcional | La frecuencia con la que la URL puede modificarse. Esto se considera una sugerencia, por lo que no es obligatorio. El valor debe ser “always”, “hourly”, “daily”, “weekly”, “monthly”, “yearly” o “never”. |
priority |
opcional | La prioridad de esta página es relativa, en función de las demás páginas del mismo sitio. El valor es un número entre 0,0 y 1,0, donde 0,0 es la prioridad más baja y 1,0 es la prioridad más alta. La prioridad puede afectar al orden en que los motores de búsqueda seleccionan las URL para explorar su sitio. Dado que la prioridad es relativa, sólo se utiliza para elegir entre las URL de su sitio; la prioridad de sus páginas no se comparará con la de las páginas de otros sitios. |
urllist
Código opcional que puede utilizar para indicar un archivo de texto que contiene una lista de las URL de su sitio.
<urllist path="/var/www/html/urllist.txt" encoding="UTF-8" />
path |
obligatorio | La ruta y el nombre de archivo del archivo .txt. Puede especificar una ruta relativa o una completa. |
encoding |
opcional | La codificación del archivo, si no se trata de UTF-8. |
urllist.txt es un archivo en formato de texto simple que contiene una lista de todas las URL que deben asignarse. También puede incluir atributos opcionales para cada URL, los cuales se introducen en la misma línea que la URL y separados por un único espacio. Por ejemplo,
http://www.example.com/abc/something http://www.example.com/abc/xyy.pdf lastmod=2001-12-31T14:05:06+00:00 http://www.example.com/abc/def?x=12&y=23 changefreq=weekly priority=0.3
lastmod |
opcional | La fecha de la última modificación de la URL en formato W3C de fecha y hora (AAAA-MM-DDThh:mm:ss+00:00). Puede omitir la parte referente al tiempo. Ejemplos:
“2005-02-21T18:00:15+00:00″ |
changefreq |
opcional | La frecuencia con la que la URL puede modificarse. Esto se considera una sugerencia y no un comando. El valor debe ser “always”, “hourly”, “daily”", “weekly”, “monthly”, “yearly” o “never”. |
priority |
opcional | La prioridad de esta página es relativa, en función de las demás páginas del mismo sitio. El valor es un número entre 0,0 y 1,0, donde 0,0 es la prioridad más baja y 1,0 es la prioridad más alta. La prioridad puede afectar al orden en que los motores de búsqueda seleccionan las URL para explorar su sitio. Dado que la prioridad es relativa, sólo se utiliza para elegir entre las URL de su sitio; la prioridad de sus páginas no se comparará con la de las páginas de otros sitios. |
directory
Código opcional que puede usar para especificar directorios en su sitio de modo que el Generador Sitemap pueda crear una lista de URL de los archivos que encuentre en estos directorios.
--> <directory path="/var/www/icons" url="http://www.example.com/images/" /> <directory path="/var/www/docroot" url="http://www.example.com/" default_file="index.html" />
path |
obligatorio | Establece la ruta inicial. El Generador Sitemap recorrerá este directorio y todos los subdirectorios. |
url |
obligatorio | Especifica la URL que equivale al valor de la ruta. |
default_file |
opcional | Especifica el archivo predeterminado de un directorio en el servidor. |
accesslog
Código opcional que puede usar para especificar la ruta y el nombre de archivo de los registros de acceso IIS y Apache de modo que el Generador Sitemap pueda seleccionar las URL de manera automática.
<accesslog path="/etc/httpd/logs/access-0.log" encoding="UTF-8"/>
path |
obligatorio | Indica la ruta del archivo. |
encoding |
opcional | Especifica la codificación del archivo, si no se trata de UTF-8. |
sitemap
Código opcional que puede utilizar para especificar la ruta y el nombre de archivo de los Sitemaps que ha creado con el Generador Sitemap. Este cliente creará un solo Sitemap que incluya las URL de cada Sitemap.
<ruta de sitemap="/var/www/raízdoc/subruta/sitemap.xml" />
path |
obligatorio | Indica la ruta del archivo de Sitemap. |
filter
Código opcional que puede usar para establecer reglas que incluyan o excluyan archivos específicos. Los filtros se cumplen en función de su orden de aparición en el archivo config.xml. Sin embargo, las entradas de archivos entremezcladas y las de entrada (url, urllist, directory o accesslog) no tiene efecto adicional; todas las URL que el Generador Sitemap añade al Sitemap se compara primero con cada uno de los filtros. Si ningún filtro coincide con la URL, se incluirá la URL en el Sitemap de manera predeterminada.
<filter action="drop" type="wildcard" pattern="*/internal/*" />
action |
opcional | La acción que debería realizar el filtro. Valores aceptados:
|
type |
opcional | El tipo de filtro. Valores aceptados:
|
pattern |
obligatorio | Especifica el modelo que es preciso seguir. |
Los archivos a los que hace referencia su archivo de configuración, las listas de URL o los registros del servidor web pueden utilizar codificaciones distintas de la codificación predeterminada UTF-8. Puede especificar otras codificaciones en config.xml para afectar la forma en que el Generador Sitemap lee sus archivos. Algunas de las codificaciones más frecuentes son:
- encoding=”utf-8″ es el supuesto valor predeterminado
- encoding=”ascii” es un subgrupo de UTF-8, por lo que no necesita especificarlo.
- encoding=”iso-8859-1” es común para muchos idiomas de Europa occidental
| 2b. Información adicional para crear un archivo de configuración móvil |
Los archivos de configuración de un Sitemap móvil se crean de la misma forma que los de un Sitemap no móvil. No obstante, debe crear un archivo de configuración distinto para cada lenguaje de marcas y ejecutar el Generador Sitemap para cada archivo de configuración por separado, con el fin de crear un Sitemap distinto para cada uno.
Cada archivo de configuración debe:
- Especifique un nombre de archivo diferente para el valor store_into.
- Use filtros para especificar las URL que deben excluirse e incluirse para el lenguaje de marcas. Recuerde que cada Sitemap debe incluir URL para un lenguaje de marcas solamente. Esto significa que la misma URL puede estar incluida en varios Sitemaps, si las URL en cuestión muestran varios lenguajes de marcas.
Ejemplos de filtrado
A continuación le mostramos algunos ejemplos de cómo puede utilizar filtros basados en la extensión para generar Sitemaps móviles para los diferentes lenguajes de marcas. El filtrado específico que utilice debe estar basado en los tipos de lenguajes de marcas que emplea en su sitio y en cómo especifica cada tipo. Si ha implementado los detalles de su sitio de forma diferente (por ejemplo, puede organizar URL con diferentes lenguajes de marcas en carpetas diferentes), debe filtrar en función de la información específica de la implementación de su sitio. Recuerde que los filtros se aplican en el orden en que se especifican en el archivo de configuración. Por lo tanto, el primer filtro que debe enumerar es una acción “pass” que especifique las URL que desea incluir en el Sitemap.
Para crear un Sitemap para contenido WML (WAP 1.2):
<filter action="pass" type="wildcard" pattern="*.wml" /> <filter action="drop" type="wildcard" pattern="*.*" />
Para crear un Sitemap para el contenido del perfil móvil XHTML (WAP 2.0):
<filter action="pass" type="wildcard" pattern="*.xhtml" /> <filter action="drop" type="wildcard" pattern="*.*" />
| 3. Carga de los archivos a su servidor web |
Debe cargar los siguientes archivos en su servidor web en una ubicación a la que pueda acceder desde una línea de comandos:
- config.xml: es el archivo de configuración que ha creado usandoexample_config.xml.
- sitemap_gen.py: es la secuencia de comandos que genera su Sitemap.
- urllist.txt: este archivo es opcional, sólo necesita incluirlo si utilizó el método de archivo de texto para crear un Sitemap.
El método que debe usar para cargar estos archivos depende de su entorno. Los métodos más habituales incluyen FTP y SCP. Si desea obtener más información, póngase en contacto con su host web.
| 4. Ejecución de la secuencia de comandos (sitemap_gen.py) |
Para poder ejecutar el Generador Sitemap, tendrá que conectarse a su servidor web. El método que debe usar para conectarse depende de su entorno. Por ejemplo, generalmente puede acceder a un servidor basado en UNIX utilizando SSH. Para obtener más información acerca de la conexión a su servidor web y de la ejecución de secuencias de comandos, consulte con su host web.
Una vez que haya copiado los archivos en su servidor web, necesitará ejecutar la secuencia de comandos del Generador Sitemap. Conéctese a su servidor web y ejecute el siguiente comando (reemplace <path/config.xml> por la ruta y el nombre de su archivo de configuración; si ha cargado este archivo en la misma ubicación que la secuencia de comandos Python, puede excluir la ruta):
python sitemap_gen.py --config=<path/config.xml>
Por ejemplo, una línea de comandos basada en UNIX puede tener un aspecto parecido a éste:

Un shell de comandos basado en MS-DOS puede tener un aspecto similar a éste:

Sugerencia: Si está probando su configuración y no está preparado para enviar su Sitemap, la sintaxis que encontrará a continuación evitará que el Generador Sitemap contacte con Google:
$ python sitemap_gen.py --config=config.xml --prueba
Verá el estado de sus solicitudes en el símbolo del sistema:
Reading configuration file: /path/config.xml Opened URLLIST "/path/urllist.txt" Walking DIRECTORY "/var/www/html/dir" Walking DIRECTORY "/var/www/html/dir2" Opened ACCESSLOG "/etc/httpd/logs/access-0.log" Sorting and normalizing collected URLs. Writing Sitemap file "/path/sitemap.xml.gz" with 1092 URLs Notifying search engines. Notifying www.google.com Count of file extensions on URLs: 208 .html 574 .jpg ... Number of errors: 0 Number of warnings: 0
Si no ve muchos resultados como éste, recuerde que la configuración verbose de su archivo de configuración afecta a la cantidad de información que aparece en la pantalla. Este ejemplo es representativo de la configuración verbose en “1″.
Asimismo, se informará de cualquier error en el archivo. Por ejemplo, si no incluye el atributo url= en una entrada de directorio, la secuencia de comandos devolverá lo siguiente:
[ERROR] Directory entries must have both "path" and "url" attributes Number of errors: 1
Corrija los errores de su archivo config.xml y vuelva a ejecutar la secuencia de comandos. Si no hay ningún error, el Generador Sitemap creará un nuevo archivo sitemap.xml.gz en la ubicación que especificó en el archivo de configuración.
| 5. Envío de su Sitemap a Google |
El Generador Sitemap crea un archivo sitemap.xml.gz en la ubicación especificada en el archivo de configuración. Una vez que haya creado este archivo correctamente, asegúrese de que se pueda acceder a él a través de un navegador web. A continuación, añádalo a su cuenta de Google Sitemaps. De esta forma, Google le ofrecerá información estadística y sobre el estado del Sitemap que le será de gran utilidad. Si Google informa de problemas relacionados con su Sitemap, puede corregirlos y volver a enviarlo. Sólo debe añadir el Sitemap manualmente una vez. A continuación, puede utilizar una solicitud HTTP para notificar a Google los cambios en su Sitemap (aunque también puede volver a enviarlo a través de la cuenta de Herramientas para webmasters de Google).
| 6. Configuración de una secuencia de comandos recurrente |
Le recomendamos configurar el Generador Sitemap para que se ejecute con la misma frecuencia con que cambian su contenidos, a una frecuencia máxima de una vez por hora.
Es recomendable que los webmasters con un servidor web UNIX consideren configurarlo como una tarea cron.
Los webmasters que utilizan otras plataformas deben ponerse en contacto son su administrador del sistema para obtener ayuda en la configuración de secuencias de comandos recurrentes. También puede obtener asesoramiento en el grupo Google Sitemaps en Grupos de Google.
Puede usar una solicitud HTTP para informar a Google de los cambios de su Sitemap. No obstante, por favor, asegúrese de acceder una sola vez a la cuenta de Herramientas para webmasters de Google con los datos de Cuentas de Google para añadir su Sitemap manualmente.
| Solución de problemas |
En esta sección, describiremos algunos de los problemas o dudas más frecuentes con las que algunos usuarios se enfrentan al utilizar el Generador Sitemap, así como las acciones que los resuelven.
Accesible por Internet
Problema: el Generador Sitemap devuelve el siguiente error y advertencia:
[ERROR] When attempting to access your generated Sitemap at the following URL: http://www.example.com/sitemap.xml.gz we failed to read it. Please verify the store_into path you specified in your configuration file is web-accessible. Consult the FAQ for more information. [WARNING] Proceeding to notify with an unverifiable URL.
¿Qué ha pasado? El Generador Sitemap ha creado el archivo donde usted especificó; a continuación, ha intentado recuperarlo usando HTTP tal y como haría un motor de búsqueda y no lo ha encontrado. De todos modos, lo ha comunicado a los motores de búsqueda, pero genera el error para avisarle de que los motores de búsqueda no pueden leer su Sitemap.
El Generador Sitemap crea su archivo de Sitemap en la ruta especificada en el atributo store_into de su archivo config.xml. A continuación, dicho cliente genera una URL a ese archivo utilizando el atributo base_url e informa de la URL a los motores de búsqueda. Por ejemplo, si la configuración es:
<site base_url="http://www.example.com/" store_into="/var/www/html/sitemap.xml.gz">
El Generador Sitemap indicará a los motores de búsqueda que realicen la búsqueda de su Sitemap en:
http://www.example.com/sitemap.xml.gz
Se debe poder acceder al archivo a través de esta URL. Si no se puede recuperar el archivo utilizando esta URL, los motores de búsqueda no podrán encontrar su Sitemap.
¿Qué puede hacer? Tiene que verificar que su config.xml está especificando las rutas base_url y store_into correctas para su Sitemap. También debe confirmar que los exploradores web pueden recuperar el archivo de Sitemap de base_url. Sin detecta errores en la ruta o la URL, deberá volver a ejecutar el Generador Sitemap o simplemente trasladar el archivo de Sitemap a la ubicación correcta y notificárselo a los motores de búsqueda manualmente a través de sus sitios web.
Compatibilidad con XML
Problema: El Generador Sitemap informa del siguiente error:
Some installs of Python 2.2 do not include complete support for XML. Please try upgrading your version of Python and re-running the script.
¿Qué ha pasado? Como indica el mensaje, algunas plataformas tienen una versión de Python (el lenguaje en que está escrita la secuencia de comandos del Generador Sitemap) que no cuenta con bibliotecas compatibles necesarias para procesar archivos XML. Esta secuencia requiere compatibilidad total con XML para ejecutarse.
¿Qué puede hacer? Pruebe a actualizar la versión de Python que tiene instalada. Para ello, seguramente tendrá que ponerse en contacto con su administrador del sistema.
Tenga en cuenta que esto sólo afecta al Generador Sitemap, no a todo el programa Sitemaps. Si dispone de otro método o herramienta para la creación de Sitemaps, no dude en utilizarlo y enviar sus Sitemaps a los motores de búsqueda.
¿Cuáles son los archivos extra en .gz o .zip?
Al extraer la secuencia de comandos sitemap_gen.py, probablemente vea algunos archivos más de los que mencionamos anteriormente. La lista completa de archivos se asemeja más a la siguiente:
AUTHORS ChangeLog COPYING example_config.xml example_urllist.txt PKG-INFO README setup.py sitemap_gen.py test_sitemap_gen.py
Los archivos adicionales tienden a contener información sobre el paquete y los términos de la licencia. Se recomienda consultarlos.
La única excepción es test_sitemap_gen.py, una secuencia de comandos de bloque de prueba que otros desarrolladores pueden encontrar útil si desean contribuir en este proyecto de código abierto. Si pretende utilizar el Generador Sitemap sin modificar ninguno de los códigos fuente, lo que se supone que deseará la mayoría de los usuarios, seguramente no necesitará esta secuencia de comandos de prueba.
Si está interesado en colaborar con nosotros en este proyecto, por favor, visite http://sourceforge.net/projects/goog-sitemapgen. Asimismo, aquí encontrará vínculos hacia programas de terceros que admiten Google Sitemaps.
Caracteres de un código distinto de ASCII
Problema: El nombre de dominio de su sitio o las URL que contiene incluyen caracteres de código distinto de ASCII.
Por lo general, las URL con un código distinto de ASCII deben codificarse con UTF-8 antes de contener caracteres de escape con porcentaje. Sin embargo, algunos servidores web sólo responden correctamente si las URL están codificadas con un tipo de codificación distinto de UTF-8. Todas las URL que contiene su Sitemap, así como la del propio Sitemap, deben estar codificadas para que el servidor web en el que están ubicadas las pueda leer. En la sección de definición del sitio, utilice el atributo opcional default_encoding para especificar la codificación que utiliza su servidor web. Si no utiliza este código y su servidor web emplea una codificación distinta de UTF-8, no sabremos qué codificación debemos utilizar.
Si sus URL contienen caracteres de un código distinto de ASCII, le recomendamos que ejecute la secuencia de comandos del Generador Sitemap mediante Python 2.3 o superior. Esta versión de Python ha incrementado el soporte para los caracteres de código distinto de ASCII. Si su nombre de dominio contiene caracteres de código distinto de ASCII, debe utilizar Python 2.3 o superior, puesto que las versiones anteriores no admiten los Internationalizing Domain Names in Applications (IDNA). Sin la compatibilidad con IDNA, el Generador Sitemap no puede codificar correctamente un nombre de dominio con caracteres de código distinto de ASCII.