Especificaciones de robots.txt | Búsqueda para desarrolladores

SPOILER ALERT!

Especificaciones de robots.txt | Búsqueda para desarrolladores

6:25 pm 27 April 2020

Resumen

En este documento se explica cómo interpreta Google los archivos robots.txt, con los que puedes supervisar cómo rastrean y también indexan los rastreadores de Google los sitios de acceso público.

Novedades

El 1 de julio del 2019,que se está trabajando parael protocolo robots.txt. Los cambios realizados en este sentido se describen en este documento.

Lista de novedades

Estos son los cambios:

Se ha eliminado la sección sobre el idioma de los requisitos de este documento pues el idioma es específico del borrador de Internet.
El archivo robots.txt ahora admite todos los protocolos.
Google prosigue al menos 5 redirecciones. Como todavía no se ha conseguido ninguna regla, se siguen al menos cinco redirecciones; si no se encuentra el fichero robots.txt, Google considera que se ha producido un error cuatrocientos cuatro. No se aconseja gestionar redirecciones lógicas en el archivo robots.txt según el contenido HTML que devuelva códigos de resultado 2xx (redirecciones de actualizaciones de metaetiquetas, de JavaScript o bien de marcos). El contenido de la primera página se emplea para encontrar reglas aplicables.
En el en caso de que se devuelva un error 5xx, si el robot de Google no puede acceder al fichero robots.txt a lo largo de más de treinta días, se utilizará la copia en caché más reciente del archivo; si no hay ninguna, Google estima que no hay ninguna restricción de rastreo.
Google considera que las solicitudes que no se realizan apropiadamente y los datos incompletos son fallos del servidor.
Los "registros" ahora se llaman "líneas" o bien "reglas", según corresponda.
Google maquetacion de pagina web
<field>que incluyan fallos simples o tipográficos; por poner un ejemplo, "useragent" en vez de "user-agent".
En estos momentos, Google solo lee 500(KiB) del fichero robots.txt, con lo que, si es más grande, ignora el contenido que sobrepase este límite.
Se ha actualizado la sintaxis formal para convertirla en una notación aumentada de Backus-Naur (ABNF) válida segúny a fin de que se puedan usar caracteres UTF-ocho en el archivo robots.txt.
Se ha actualizado la definición de "grupos" para hacerla más breve y precisa. Se ha añadido un ejemplo de conjunto vacío.
Se han eliminado las referencias al esquema de rastreo obsoleto de Ajax.

Definiciones básicas

Aplicaciones

Todos los rastreadores automatizados de Google prosiguen las directrices que se indican en este documento. Sin embargo, estas indicaciones no se aplican cuando un agente accede a las URL representando a un usuario para, por ejemplo, traducir la página, acceder a feeds de suscripción manual o bien examinar contenido en busca de software malicioso.

Ubicación del archivo y periodo de validez

El archivo robots.txt debe incluirse en el directorio de nivel superior del host, y se debe poder acceder a él a través del protocolo y del número de puerto apropiados. Todos los protocolos que suelen aceptarse para acceder a este archivo sey, concretamente en el caso de la Búsqueda de Google, (por poner un ejemplo, para rastrear de sitios) son "http" y "https". Cuando se utilizan estos dos protocolos, el fichero robots.txt se obtiene a través de una petición HTTP GET no condicional.

Elementos específicos de Google: Google también acepta y rastrea ficheros robots.txt en sitios FTP. A los archivos robots.txt basados en FTP se accede a través de este protocolo, utilizando unas credenciales de acceso anónimas.

Las directivas que se incluyen en el archivo robots.txt se aplican únicamente al host, al protocolo y al número de puerto en el que se aloja el archivo.

Ejemplos de URLs de archivo robots.txt válidas

/
/folder/file

/
/
:8181/

Válida para:
/

No válida para:

üller.eu/
--mller-kva.eu/

No válida para:
/

Válida para:
ftp://example.com/

No válida para:
/

Valor específico de Google: utilizamos el fichero robots.txt también con recursos FTP.

Válida para:
/

No válida para:
/(si bien esté alojado en 212.96.82.21)

Válida para:

:80/
/

No válida para:
:81/

Válida para:
:8181/

No válida para:
/

Uso de los códigos de resultado HTTP

Por lo general, al acceder a los ficheros robots.txt, se consiguen 3 resultados diferentes:

full allow (permiso completo): se puede rastrear todo el contenido.
full disallow (ningún permiso): no se puede rastrear ningún contenido.
conditional allow (permiso condicional): las directivas incluidas en el fichero robots.txt determinan si se puede rastrear un contenido determinado.

Los errores del servidor se consideran errores temporales que devuelven el resultado "full disallow". La solicitud se marcha enviando hasta el momento en que se consigue un código de resultado HTTP sin fallo del servidor. Por servirnos de un ejemplo, los errores quinientos tres (Servicio no libre) acostumbran a provocar este comportamiento. Si el robot de Google no puede acceder al fichero robots.txt durante más de treinta días, se utilizará la copia en caché más reciente del fichero. Si no hay ninguna, Google considera que no existe ninguna restricción de rastreo. diseño de paginas web en almeria de forma temporal el rastreo, se aconseja enseñar un código de resultado HTTP quinientos tres.

Elemento específico de Google: si observamos que un sitio se ha configurado de forma incorrecta y, cuando faltan páginas, devuelve un error 5xx y no uno cuatrocientos cuatro, vamos a tratar el error 5xx de ese sitio web como si fuera un fallo cuatrocientos cuatro.

Formato de archivo

Se esperan ficheros de texto sin formato con codificación. Las diferentes líneas del fichero han de estar separadas por CR, CR/LF o bien LF.

Solo se tienen en cuenta las líneas válidas; el resto del contenido se ignora. Por ejemplo, si el documento es una página HTML, solo se tendrán en cuenta las líneas de texto válidas; las demás se ignorarán y no se mostrará ningún mensaje de advertencia o de fallo.

Es posible que el contenido del archivo no se analice apropiadamente si se emplea una codificación que produzca caracteres que no representen un subconjunto de UTF-8.

Si hay una marca de orden de bytesUnicode opcional al comienzo del fichero robots.txt, se ignora.

Para que una línea sea válida, ha de estar formada por un campo, dos puntos (:) y posicionamiento seo cadiz . Los espacios son opcionales, si bien aconsejamos utilizarlos para prosperar la legibilidad del archivo. Se pueden incluir comentarios en cualquier una parte del fichero precedidos del carácter "#". Todo el contenido que se inserta entre el comienzo de un comentario y el final de la línea se considera como tal y se ignora. El formato general es
<field>:<value><#optional-comment>. Los espacios en blanco al principio y al final de una línea se ignoran.

El elemento
<field>no distingue entre mayúsculas y minúsculas. En cambio, el factor <value>puede que sí distinga entre mayúsculas y minúsculas, en función del elemento <field>.

No se pueden procesar los elementos
<field>que incluyan fallos simples o bien tipográficos; por ejemplo, "useragent" en vez de "user-agent".

Se puede implementar un tamaño del archivo máximo en cada rastreador. El contenido que supere el tamaño máximo de archivo se ignorará. En estos instantes, Google aplica un límite de tamaño de 500(KiB). Si tu fichero robots.txt es demasiado grande, combina directivas para reducir su tamaño. Por poner un ejemplo, coloca el material que quieres excluir en otro directorio.

Definición y sintaxis formal

A continuación, se describe la notación aumentada de Backus-Naur (ABNF), tal como se describe en.

Agrupación de líneas y reglas

Una o bien múltiples líneas de usuario-agent seguidas de una o bien varias reglas. Los conjuntos acaban con una línea de usuario-agent o bien cuando se llega al final del fichero. Es posible que el último grupo no tenga ninguna regla, lo que implica que lo deja todo.

Grupos de ejemplo:

Se señalan 4 conjuntos diferentes: el primero afecta a "a"; el segundo, a "b", y el tercero a "e" y a "f" a la vez. Salvo el último conjunto, todos tienen su línea de miembros de conjunto. El último grupo está vacío. Fíjate que, de forma opcional, se han incluido espacios en blanco y líneas vacías para mejorar la legibilidad.

Orden de prioridad de los usuario-agent

A cada rastreador solo se le puede aplicar un conjunto. Para determinar qué grupo es el correcto, el rastreador busca el grupo que coincida que tenga el user-agent más específico y también ignora el resto. El campo Usuario-agent distingue entre mayúsculas y minúsculas. La parte de texto que no coincida se ignora (por servirnos de un ejemplo, tanto
googlebot/1.2como
googlebot*son equivalentes a
googlebot). No importa el orden en el que aparezcan los grupos dentro del archivo robots.txt.

Si hay más de un grupo que afecta a un user-agent específico, a ese usuario-agent se le aplicarán todas las reglas de esos grupos.

Ejemplo

Si tenemos el próximo fichero robots.txt:

Los rastreadores elegirían el grupo pertinente del siguiente modo:

Consulta también información sobre los.

Reglas de miembros de grupos

En esta sección, solo se tratan las reglas estándar de los miembros de grupos. En el caso de los rastreadores, estas reglas también se llaman "directivas". Estas directivas se especifican con el formato
directive: [path], en el que el valor
[path]es opcional. De manera predeterminada, no se aplican limitaciones de rastreo a los rastreadores concretados. Las directivas que no tengan
[path]se ignoran.

Si se detalla, se cree que el valor
[path]es relativo a la raíz del sitio a cuyo fichero robots.txt se ha accedido, con exactamente el mismo protocolo, número de puerto y nombres de dominio y de host. El valor de la ruta debe empezar por "/", que indica la raíz. La senda distingue entre mayúsculas y minúsculas. Para conseguir más información, se puede preguntar la sección "Coincidencias de URL en función de los valores de ruta" que aparece a continuación.

Directiva disallow

La directiva
disallowespecifica las sendas a las que los rastreadores indicados no deben acceder. Cuando no se detalla ninguna senda, se ignora la directiva.

Uso:

Directiva allow

La directiva
allowespecifica las sendas a las que los rastreadores indicados pueden acceder. Cuando no se especifica ninguna senda, se ignora la directiva.

Uso:

Coincidencias de URL en función de los valores de ruta

El valor de senda se emplea como base para determinar si una regla se aplica o no a una URL específica de un sitio. A excepción de los comodines, la senda se usa para que coincida con el principio de una URL (y con cualquier URL válida que comience por la misma ruta). Los caracteres ASCII que no sean de 7 bits que aparezcan en una senda se pueden incluir como caracteres UTF-8 o como caracteres UTF-8 codificados con tanto por ciento como carácter de escape según.

Google, Bing y otros buscadores web principales admiten usar "comodines" limitados en los valores de ruta. Se trata de los siguientes:

*indica 0 o más casos de cualquier carácter válido.
$ indica el final de la URL.

Coincide con estas rutas:

/fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything

No coincide con estas rutas:

/Fish.asp
/catfish
/?id=fish

Es equivalente a
/fish. El comodín final se ignora.

Coincide con estas rutas:

/fish
/fish.html
/fish/salmon.html
/fishheads
/fishheads/yummy.html
/fish.php?id=anything

No coincide con estas rutas:

/Fish.asp
/catfish
/?id=fish

La barra inclinada posterior señala que esta senda coincide con cualquiera incluida en esta carpetita.

Coincide con estas rutas:

/fish/
/fish/?id=anything
/fish/salmon.htm

No coincide con estas rutas:

/fish
/fish.html
/Fish/Salmon.asp

Coincide con estas rutas:

/filename.php
/folder/filename.php
/folder/filename.php?parameters
/folder/any.php.file.html
/filename.php/

No coincide con estas rutas:

/(si bien se asigne a /index.php)
/windows.PHP

Coincide con estas rutas:

/filename.php
/folder/filename.php

No coincide con estas rutas:

/filename.php?parameters
/filename.php/
/filename.php5
/windows.PHP

Coincide con estas rutas:

/fish.php
/fishheads/catfish.php?parameters

No coincide con estas rutas:
/Fish.PHP

Líneas de miembros que no pertenecen al conjunto que Google admite

Google, Bing y otros buscadores web principales aceptan
sitemap, tal y como se define en.

Uso:

[absoluteURL]debe llevar a un sitemap, a un índice de sitemap o a una URL equivalente. No es necesario que la URL esté en el mismo host que el fichero robots.txt. Pueden existir múltiples entradas
sitemap. Como se trata de líneas de miembros que no pertenecen al grupo, estos no están vinculados a ningún user-agent específico, y todos los rastreadores pueden seguirlos, toda vez que esté tolerado.

Orden de prioridad de líneas de miembros de grupos

A nivel de miembro de conjunto, particularmente para las directivas
allowy
disallow, la regla más específica en función de la longitud de la entrada
[path]prevalece sobre la menos específica (más corta). En el caso de reglas en conflicto, incluidas las que tienen comodines, se usa la regla menos restrictiva.

allow
:
/p

disallow
:
/

Resultado:
allow

allow
:
/folder

disallow
:
/folder

Resultado:
allow

allow
:
/page

disallow
:
/*.htm

Resultado:
undefined

allow
:
/$

disallow
:
/

Resultado:
allow

allow
:
/ dólares americanos

disallow
:
/

Resultado:
disallow

buttonwar8

Blog

Shelf

Timeline