[SEO] Sobre robots.txt

Mr. Foster · Septiembre 20, 2013, 01:48:27 AM

Bueno en lo que estaba ultimamente lei un articulo y encontre que podria ser de gran ayuda compartirlo, o acerco al foro.

Cómo bloquear o eliminar páginas con un archivo robots.txt:

Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de Rastreo de Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no deseas que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta "robots".

*Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web. La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.

Como crear un archivo robots.txt:

El archivo robots.txt más simple utiliza dos reglas:

User-Agent: el robot al que se aplica la siguiente regla
Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

Código: text

User-agent: *

Disallow: /carpeta1/

User-Agent: Googlebot

Disallow: /carpeta2/

En este ejemplo, las únicas URL que no puede rastrear el robot de Google son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye muchos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

Código: text

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloqueo de user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

Para bloquear todo el sitio, utilice una barra inclinada.

Código: text

 Disallow: /

Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.

Código: text

Disallow: /directorio-sintítulo/

Para bloquear una página, insértala después de la línea Disallow.

Código: text

 Disallow: /archivo_privado.html

Para eliminar una imagen de Google Imágenes, añada lo siguiente:

Código: text

User-agent: Googlebot-Image

    Disallow: /imagenes/perros.jpg

Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:

Código: text

 User-agent: Googlebot-Image

    Disallow: /

Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:

Código: text

User-agent: Googlebot
    Disallow: /*.gif$

Para evitar que se rastreen las páginas de su sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-MediaPartners no comparte páginas con otros user-agents de Google. Por ejemplo:

Código: text

 User-agent: *
    Disallow: /

    User-agent: Mediapartners-Google

    Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, DIsallow: /archivo_basura.asp bloquearía No tienes permitido ver los links. Registrarse o Entrar a mi cuenta, pero permitiría No tienes permitido ver los links. Registrarse o Entrar a mi cuenta. El robot de Google ignorará los espacios en blanco (en particular, las líneas vacías) y las directivas desconocidas en robots.txt.

El robot de Google permite enviar archivos de sitemaps mediante el archivo robots.txt.
Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por "privado":

Código: text

  User-agent: Googlebot
    Disallow: /privado*/

Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:

Código: text

User-agent: Googlebot
    Disallow: /*?

Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:

Código: text

 User-agent: Googlebot 
    Disallow: /*.xls$

Puede utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configure su archivo robots.txt del siguiente modo:

Código: text

 User-agent: *
    Allow: /*?$
    Disallow: /*?

La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, No tienes permitido ver los links. Registrarse o Entrar a mi cuenta es una ubicación válida, pero No tienes permitido ver los links. Registrarse o Entrar a mi cuenta no lo es.

El articulo en si fue extraido de supportgoogle, en forma de compartir y acercar conocimiento.

Snifer · Septiembre 22, 2013, 10:28:32 AM

Cabe resaltar que aun indicando a Robots.txt algunos directorios que no sean indexados por los buscadores lo hacen hay metatags como tambien cabezeras para subsanar pero como el caso de google se tiene que cubrir por todo lado !

Regards,
Snifer

Rampe · Octubre 06, 2013, 09:28:33 PM

que bueno esto justo andaba buscando como restringir ciertos accesos y demás :/ aunque primero ando liado con el PHP

... Por eso lo pondré en mis marcadores

cuando termine en lo que ando probare esto!

Saludos!

Alex · Octubre 07, 2013, 06:23:11 PM

No tienes permitido ver los links. Registrarse o Entrar a mi cuenta
Cabe resaltar que aun indicando a Robots.txt algunos directorios que no sean indexados por los buscadores lo hacen hay metatags como tambien cabezeras para subsanar pero como el caso de google se tiene que cubrir por todo lado !

Regards,
Snifer

nunca faltas snifer no?

muchas gracias un amportazo Mr. Foster

saludoS!

[SEO] Sobre robots.txt

Mr. Foster

Septiembre 20, 2013, 01:48:27 AM Ultima modificación: Mayo 26, 2014, 03:55:21 PM por Destructor.cs

Snifer

Septiembre 22, 2013, 10:28:32 AM #1

Rampe

Octubre 06, 2013, 09:28:33 PM #2

Alex

Octubre 07, 2013, 06:23:11 PM #3