Robots txt disallow No permitir a todos todo. Cómo evitar la indexación de las páginas necesarias. Cómo buscar páginas que deben cerrarse de la indexación

08.07.2020

Al visitar un sitio, el robot de búsqueda utiliza una cantidad limitada de recursos para la indexación. Es decir, un robot de búsqueda puede descargar un determinado número de páginas en una sola visita. Dependiendo de la frecuencia de actualización, el volumen, la cantidad de documentos y muchos, los robots pueden aparecer con más frecuencia y descargar más páginas.

Cuantas más páginas se descargan, más información más rápida de su sitio entra en los resultados de búsqueda. Además del hecho de que las páginas aparecerán más rápido en la búsqueda, los cambios en el contenido de los documentos también tendrán efecto más rápido.

Indexación rápida del sitio

Rápida indexación de las páginas del sitio. ayuda a combatir el robo de contenido único, permite debido a su frescura y relevancia. Pero lo más importante. La indexación más rápida le permite realizar un seguimiento de cómo ciertos cambios afectan la posición del sitio en los resultados de búsqueda.

Indexación del sitio pobre y lenta

¿Por qué está mal indexado el sitio? Puede haber muchas razones, y estas son las razones principales de la indexación lenta del sitio.

Las páginas del sitio web se cargan lentamente. Esto puede hacer que el sitio quede completamente excluido del índice.
El sitio rara vez se actualiza. ¿Por qué un robot vendría a menudo a un sitio donde aparecen nuevas páginas una vez al mes?
Contenido no único. Si el sitio contiene (artículos, fotos), el motor de búsqueda reducirá la confianza (confianza) en su sitio y reducirá el consumo de recursos para su indexación.
Un gran número de páginas.. Si el sitio tiene muchas páginas y no, puede llevar mucho tiempo indexar o volver a indexar todas las páginas del sitio.
Estructura del sitio compleja. La intrincada estructura del sitio y una gran cantidad de archivos adjuntos hacen que sea muy difícil indexar las páginas del sitio.
Un montón de páginas adicionales. Cada sitio tiene páginas de destino cuyo contenido es estático, único y útil para los usuarios, y páginas laterales como páginas de correo electrónico, de inicio de sesión o de filtro. Si tales páginas existen, generalmente hay muchas, pero no todas se indexan. Y las páginas que llegan allí compiten con las páginas de destino. Todas estas páginas se vuelven a indexar regularmente, consumiendo los recursos ya limitados asignados para indexar su sitio.
Páginas dinámicas. Si hay páginas en el sitio cuyo contenido no depende de parámetros dinámicos (ejemplo: site.ru/page.html?lol=1&wow=2&bom=3), como resultado, muchos duplicados de site.ru/page.html puede aparecer la página de destino.

Hay otras razones para la mala indexación del sitio. Sin embargo, el error más común es.

Eliminar todo de la indexación

Hay muchas oportunidades para utilizar racionalmente los recursos que los motores de búsqueda asignan para indexar un sitio. Y es robots.txt el que abre amplias oportunidades para gestionar la indexación del sitio.

Usando las directivas Permitir, No permitir, Limpiar parámetros y otras, puede distribuir de manera efectiva no solo la atención del robot de búsqueda, sino también reducir significativamente la carga en el sitio.

Primero, debe excluir todo lo innecesario de la indexación, utilizando la directiva Disallow.

Por ejemplo, deshabilitemos las páginas de inicio de sesión y registro:

No permitir: /iniciar sesión No permitir: /registrarse

Deshabilitar la indexación de etiquetas:

No permitir: /etiqueta

Algunas páginas dinámicas:

No permitir: //?lol=1

O todas las páginas dinámicas:

No permitir: /*?*

O anular páginas con parámetros dinámicos:

Param limpio: lol&wow&bom /

En muchos sitios, la cantidad de páginas encontradas por el robot puede diferir de la cantidad de páginas en la búsqueda en 3 o más veces. Es decir, más del 60% de las páginas del sitio no participan en la búsqueda y son un lastre que debe ingresarse en la búsqueda o deshacerse de ella. Al excluir las páginas que no son de destino y acercar el número de páginas en la búsqueda al 100%, verá un aumento significativo en la velocidad de indexación del sitio, posiciones más altas en los resultados de búsqueda y más tráfico.

Más sobre la indexación del sitio, el impacto de la indexación en la emisión, páginas del sitio, otros formas de acelerar la indexación del sitio y razones de la mala indexación del sitio lee las siguientes publicaciones. Mientras tanto.

Suelta lastre innecesario y sube a la cima más rápido.

¿Cómo evitar que ciertas páginas sean indexadas?

Los permisos y prohibiciones para la indexación son tomados por todos los motores de búsqueda del archivo. robots.txt ubicado en el directorio raíz del servidor. Puede aparecer una prohibición de indexar varias páginas, por ejemplo, por razones de secreto o por el deseo de no indexar los mismos documentos en diferentes codificaciones. Cuanto más pequeño sea su servidor, más rápido lo evitará el robot. Por lo tanto, en el archivo robots.txt, deshabilite todos los documentos que no tengan sentido para ser indexados (por ejemplo, archivos de estadísticas o listas de archivos en directorios). Preste especial atención a los scripts CGI o ISAPI: nuestro robot los indexa junto con otros documentos.

En su forma más simple (todo está permitido excepto el directorio del script), el archivo robots.txt se ve así:

Agente de usuario: *
No permitir: /cgi-bin/

Puede encontrar una descripción detallada de la especificación del archivo en la página: "".

Al escribir robots.txt, preste atención a los siguientes errores comunes:

1. La línea con el campo User-Agent es obligatoria y debe preceder a las líneas con el campo Rechazar. Por ejemplo, el siguiente archivo robots.txt no prohíbe nada:

No permitir: /cgi-bin
No permitir: /foro

2. Las líneas en blanco en el archivo robots.txt son importantes, ya que separan las entradas relacionadas con diferentes robots. Por ejemplo, en el siguiente fragmento del archivo robots.txt, la línea No permitir: /foro ignorado porque no hay una línea de campo antes agente de usuario.

Agente de usuario: *
No permitir: /cgi-bin
No permitir: /foro

3. Línea con un campo Rechazar puede evitar la indexación de documentos con un solo prefijo. Para deshabilitar varios prefijos, escriba varias líneas. Por ejemplo, el archivo a continuación evita la indexación de documentos que comienzan con " /cgi-bin/foro”, que, muy probablemente, no existen (y no documentos con prefijos /cgi-bin y /foro).

Agente de usuario: *
No permitir: /cgi-bin /foro

4. En líneas con un campo Rechazar no se escriben prefijos absolutos, sino relativos. ese es el archivo

Agente de usuario: *
No permitir: www.myhost.ru/cgi-bin

prohíbe, por ejemplo, la indexación de documentos http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, pero NO evita la indexación del documento http://www.myhost.ru/cgi-bin/counter.cgi.

5. En líneas con un campo Rechazar se especifican prefijos, y no otra cosa. Entonces el archivo:

Agente de usuario: *
No permitir: *

prohíbe la indexación de documentos que comienzan con el carácter "*" (que no existen en la naturaleza), y es muy diferente de un archivo:

Agente de usuario: *
rechazar: /

lo que impide la indexación de todo el sitio.

Si no puede crear/modificar un archivo robots.txt, entonces no todo está perdido, solo agregue una etiqueta adicional en el código HTML de su página (dentro de la etiqueta ):

Entonces este documento tampoco será indexado.

También puedes usar la etiqueta

Significa que el robot del motor de búsqueda no debe seguir los enlaces de esta página.

Para prohibir simultáneamente la indexación de páginas y eludir los enlaces de esta, utilice la etiqueta

¿Cómo evitar que se indexen ciertas partes del texto?

Para evitar que se indexen determinados fragmentos de texto de un documento, márquelos con etiquetas

¡Atención! La etiqueta NOINDEX no debe romper el anidamiento de otras etiquetas. Si especifica la siguiente construcción errónea:

…código1…

…código2…

…código3…

la prohibición de indexación incluirá no solo "código1" y "código2", sino también "código3".

¿Cómo elegir un host virtual maestro de múltiples espejos?

Si su sitio está ubicado en el mismo servidor (misma IP), pero es visible en el mundo exterior con diferentes nombres (espejos, diferentes hosts virtuales), Yandex recomienda que seleccione el nombre bajo el cual desea ser indexado. De lo contrario, Yandex elegirá el espejo principal por sí solo, y se prohibirá la indexación de otros nombres.

Para que el espejo que ha elegido se indexe, basta con prohibir la indexación de todos los demás espejos usando . Esto se puede hacer usando la extensión no estándar robots.txt - la directiva Anfitrión, especificando el nombre del espejo principal como su parámetro. si un www.glavnoye-zerkalo.ru es el espejo principal, entonces robots.txt debería verse así:

Agente de usuario: *
No permitir: /foro
No permitir: /cgi-bin
Anfitrión: www.glavnoye-zerkalo.ru

Para compatibilidad con robots que no siguen completamente el estándar al procesar robots.txt, la directiva Host debe agregarse en el grupo que comienza con la entrada User-Agent, inmediatamente después de las entradas Disallow.

argumento de directiva Anfitrión es un nombre de dominio con un número de puerto ( 80 predeterminado), separados por dos puntos. Si no se especifica ningún sitio como argumento para Anfitrión, implica la presencia de la directiva rechazar: /, es decir. Prohibición completa de indexación (si hay al menos una directiva correcta en el grupo Anfitrión). Entonces los archivos robots.txt tipo

Agente de usuario: *
Anfitrión: www.myhost.ru

Agente de usuario: *
Anfitrión: www.myhost.ru:80

son equivalentes y prohíben la indexación como www.otherhost.ru, y www.mihost.ru:8080.

El parámetro de la directiva Host debe consistir en un único nombre de host válido (es decir, el correspondiente RFC 952 y dirección no IP) y un número de puerto válido. líneas incorrectas Anfitrión ignorado.

# Ejemplos de directivas de Host ignoradas
Anfitrión: www.myhost-.ru
Anfitrión: www.- myhost.ru
Anfitrión: www.myhost.ru:0
Anfitrión: www.my_host.ru
Anfitrión: . mi-host.com:8000
Anfitrión: my-host.ru.
Anfitrión: my..host.ru
Anfitrión: www.myhost.ru/
Anfitrión: www.myhost.ru:8080/
Anfitrión: http://www.myhost.ru
Anfitrión: www.mysi.te
Anfitrión: 213.180.194.129
Anfitrión: www.firsthost.ru, www.secondhost.ru
Anfitrión: www.firsthost.ru www.secondhost.ru

Si tiene un servidor Apache, en lugar de usar la directiva Host, puede configurar robots.txt usando directivas SSI:

Agente de usuario: *
rechazar: /

En este archivo, el robot tiene prohibido eludir todos los hosts excepto www.nombre_principal.ru

Para habilitar SSI, consulte la documentación de su servidor o comuníquese con el administrador del sistema. Puede verificar el resultado simplemente consultando las páginas:

Http://www.nombre_principal.ru/robots.txt
http://www.otro_nombre.ru/robots.txt etc. Los resultados deben ser diferentes.

Recomendaciones para el servidor web Russian Apache

En robots.txt en sitios con Apache ruso, todas las codificaciones, excepto la principal, deben estar prohibidas para robots.

Si las codificaciones se descomponen por puertos (o servidores), entonces es necesario emitir DIFERENTES robots.txt en diferentes puertos (servidores). Es decir, en todos los archivos robots.txt para todos los puertos/servidores, excepto el "principal", debe escribirse:

Agente de usuario: *
rechazar: /

Para ello, puede utilizar el mecanismo SSI, .

Si las codificaciones en su Apache se distinguen por los nombres de los directorios "virtuales", entonces debe escribir un archivo robots.txt, que debe contener aproximadamente las siguientes líneas (dependiendo de los nombres de los directorios):

Agente de usuario: *
No permitir: /dos
No permitir: /mac
No permitir: /koi

Generador de Ventas

Tiempo de leer: 18 minutos

Te enviaremos el material:

Temas discutidos en el material:

¿Qué papel juega el archivo robots.txt en la indexación del sitio?
Cómo deshabilitar la indexación del sitio y sus páginas individuales usando robots.txt
Qué directivas de robots.txt se utilizan para la configuración de indexación del sitio
¿Cuáles son los errores más comunes que se cometen al crear un archivo robots.txt?

El recurso web está listo para funcionar: está lleno de textos únicos de alta calidad, imágenes originales, es conveniente navegar a través de las secciones y el diseño es agradable a la vista. Solo queda presentar su creación a los usuarios de Internet. Pero los motores de búsqueda deberían ser los primeros en familiarizarse con el portal. El proceso de datación se llama indexación, y uno de los roles principales lo desempeñan los robots de archivos de texto. Para que el sitio robots.txt se indexe correctamente, se deben cumplir una serie de requisitos específicos.

El motor de recursos web (CMS) es uno de los factores que afectan significativamente la velocidad de indexación de las arañas de búsqueda. ¿Por qué es importante dirigir a los rastreadores solo a las páginas importantes que deberían aparecer en los SERP?

El robot del motor de búsqueda mira un número limitado de archivos en un recurso en particular y luego va al siguiente sitio. En ausencia de restricciones específicas, la araña de búsqueda puede comenzar por indexar los archivos del motor, cuyo número a veces es de miles; el robot simplemente no tendrá tiempo para el contenido principal.
O indexará páginas completamente diferentes en las que planea avanzar. Peor aún, si los motores de búsqueda ven la duplicación de contenido que tanto odian, cuando diferentes enlaces conducen al mismo (o casi idéntico) texto o imagen.

Por lo tanto, prohibir que las arañas de los motores de búsqueda vean demasiado es una necesidad. Esto es para lo que está diseñado robots.txt: un archivo de texto normal, cuyo nombre está escrito en letras minúsculas sin el uso de letras mayúsculas. Se crea en cualquier editor de texto (Notepad++, SciTE, VEdit, etc.) y se edita aquí. El archivo le permite influir en la indexación del sitio por parte de Yandex y Google.

Para un programador que aún no tiene suficiente experiencia, es mejor familiarizarse primero con ejemplos del correcto llenado de un archivo. Debe seleccionar los recursos web que le interesen y, en la barra de direcciones del navegador, escribir sitio.ru/robots.txt(donde la primera parte antes de "/" es el nombre del portal).

Es importante ver solo los sitios que se ejecutan en el motor que le interesa, ya que las carpetas del CMS cuya indexación está prohibida tienen nombres diferentes en los diferentes sistemas de administración. Por lo tanto, el motor se convierte en el punto de partida. Si su sitio funciona con WordPress, debe buscar blogs que se ejecuten en el mismo motor; para Joomla! tendrá sus propios robots ideales, etc. Al mismo tiempo, es recomendable tomar como muestra archivos de portales que atraigan un tráfico significativo de búsqueda.

¿Qué es la indexación de sitios con robots.txt?

Búsqueda de indexación- el indicador más importante del que depende en gran medida el éxito de la promoción. Parece que el sitio se creó de manera ideal: las solicitudes de los usuarios se tienen en cuenta, el contenido está en la parte superior, la navegación es conveniente, pero el sitio no puede hacerse amigo de los motores de búsqueda. Las razones hay que buscarlas en la parte técnica, concretamente en las herramientas con las que se puede incidir en la indexación.

Hay dos de ellos: Sitemap.xml y robots.txt. Archivos importantes que se complementan y al mismo tiempo resuelven problemas polares. El mapa del sitio invita a las arañas a "Bienvenido, indexe todas estas secciones" al proporcionar a los bots la URL de cada página que se indexará y la hora en que se actualizó por última vez. El archivo robots.txt, por otro lado, sirve como una señal de alto, evitando que las arañas se arrastren por cualquier parte del sitio.

Este archivo y la metaetiqueta de robots de nombre similar, que permite una configuración más precisa, contienen instrucciones claras para los rastreadores de motores de búsqueda, que indican prohibiciones para indexar ciertas páginas o secciones completas.

Los límites establecidos correctamente afectarán mejor la indexación del sitio. Aunque todavía hay aficionados que creen que es posible permitir que los bots estudien absolutamente todos los archivos. Pero en esta situación, la cantidad de páginas ingresadas en la base de datos del motor de búsqueda no significa una indexación de alta calidad. ¿Por qué, por ejemplo, los robots necesitan las partes administrativas y técnicas del sitio o imprimen páginas (son convenientes para el usuario y los motores de búsqueda se presentan como contenido duplicado)? Hay muchas páginas y archivos en los que los bots pasan el tiempo, de hecho, por nada.

Cuando una araña visita su sitio, inmediatamente busca el archivo robots.txt destinado a ella. Al no encontrar un documento o al encontrarlo en una forma incorrecta, el bot comienza a actuar de forma independiente, indexando literalmente todo en una fila de acuerdo con un algoritmo que solo él conoce. No necesariamente comienza con contenido nuevo sobre el que le gustaría notificar a los usuarios primero. En el mejor de los casos, la indexación simplemente se prolongará; en el peor de los casos, también puede resultar en penalizaciones por duplicados.

Tener un archivo de texto de robots adecuado evitará muchos problemas.

Hay tres formas de evitar la indexación de secciones o páginas de un recurso web, desde el punto hasta el alto nivel:

La etiqueta noindex y el atributo son elementos de código completamente diferentes que tienen diferentes propósitos, pero son ayudantes de SEO igualmente valiosos. La cuestión de su procesamiento por parte de los motores de búsqueda se ha vuelto casi filosófica, pero el hecho permanece: noindex le permite ocultar parte del texto de los robots (no está en los estándares html, pero definitivamente funciona para Yandex), y nofollow prohíbe seguir el enlace y pasando su peso (incluido en la clasificación estándar, válida para todos los buscadores).
La metaetiqueta de robots en una página en particular afecta esa página en particular. A continuación, veremos más de cerca cómo indicar en él la prohibición de indexar y seguir los enlaces ubicados en el documento. La etiqueta meta es completamente válida, los sistemas tienen en cuenta (o intentan tener en cuenta) los datos especificados. Además, Google, al elegir entre robots en forma de archivo en el directorio raíz del sitio y la metaetiqueta de la página, da prioridad a este último.
robots.txt: este método es completamente válido, compatible con todos los motores de búsqueda y otros bots que viven en la Web. Sin embargo, sus directivas no siempre se consideran como una orden a ejecutar (se dijo más arriba sobre la no autoridad de Google). Las reglas de indexación especificadas en el archivo son válidas para el sitio en su conjunto: páginas individuales, directorios, secciones.

Usando ejemplos, considere la prohibición de indexar el portal y sus partes.

Hay muchas razones para evitar que las arañas indexen un sitio web. Todavía está en desarrollo, se está rediseñando o actualizando, el recurso es una plataforma experimental, no destinada a los usuarios.

Se puede bloquear un sitio para que no sea indexado por robots.txt para todos los motores de búsqueda, para un robot individual, o se puede prohibir para todos menos uno.

2. Cómo deshabilitar la indexación del sitio robots.txt en páginas individuales

Si el recurso es pequeño, es poco probable que deba ocultar páginas (lo que hay para ocultar en un sitio de tarjeta de presentación), y los grandes portales que contienen una cantidad sustancial de información de servicio no pueden prescindir de las prohibiciones. Es necesario cerrar desde robots:

panel administrativo;
directorios de servicios;
búsqueda de sitio;
Área personal;
formularios de registro;
formularios de pedido;
comparación de productos;
favoritos;
cesta;
captcha;
ventanas emergentes y pancartas;
identificadores de sesión.

Noticias y eventos irrelevantes, eventos del calendario, promociones, ofertas especiales: estas son las llamadas páginas basura que se ocultan mejor. También es mejor cerrar el contenido obsoleto en los sitios de información para evitar calificaciones negativas de los motores de búsqueda. Trate de mantener las actualizaciones periódicas; así no tendrá que jugar al escondite con los motores de búsqueda.

Prohibición de robots para la indexación:

En robots.txt, puede especificar prohibiciones completas o selectivas sobre la indexación de carpetas, archivos, scripts, etiquetas utm, que pueden ser una orden tanto para arañas de búsqueda individuales como para robots de todos los sistemas.

Prohibición de indexación:

La metaetiqueta robots sirve como alternativa al archivo de texto del mismo nombre. Está escrito en el código fuente del recurso web (en el archivo index.html), colocado en el contenedor . Es necesario aclarar quién no puede indexar el sitio. Si la prohibición es general, robots; si se deniega la entrada a un solo rastreador, debe especificar su nombre (Google - Googlebot, "Yandex" - Yandex).

Hay dos opciones para escribir una metaetiqueta.

El atributo "contenido" puede tener los siguientes valores:

ninguno: prohibición de indexación (incluidos noindex y nofollow);
noindex - prohibición de indexación de contenido;
nofollow: prohibir los enlaces de indexación;
seguir - permiso para indexar enlaces;
índice: permitir la indexación de contenido;
all - permite indexar el contenido y los enlaces.

Para diferentes casos necesitas usar combinaciones de valores. Por ejemplo, si deshabilita la indexación de contenido, debe permitir que los bots indexen enlaces: content="noindex, follow".

Al cerrar el sitio web de los motores de búsqueda a través de metaetiquetas, el propietario no necesita crear robots.txt en la raíz.

Debe recordarse que en el tema de la indexación, mucho depende de la "cortesía" de la araña. Si es "educado", entonces las reglas prescritas por el maestro serán relevantes. Pero en general, la validez de las directivas de robots (tanto el archivo como la metaetiqueta) no significa seguirlas al cien por cien. Incluso para los motores de búsqueda, no todas las prohibiciones son estrictas, y no hay necesidad de hablar sobre varios tipos de ladrones de contenido. Inicialmente están configurados para eludir todas las prohibiciones.

Además, no todos los rastreadores están interesados en el contenido. Para algunos, solo los enlaces son importantes, para otros, el micromarcado, otros verifican las copias espejo de los sitios, etc. Al mismo tiempo, las arañas del sistema no rastrean el sitio en absoluto, como los virus, sino que solicitan de forma remota las páginas necesarias. Por lo tanto, la mayoría de las veces no crean ningún problema para los propietarios de los recursos. Pero, si se cometieron errores durante el diseño del robot o se produjo alguna situación externa no estándar, el rastreador puede cargar significativamente el portal indexado.

Comandos utilizados:

1. "Usuario-agente:"

La directriz principal del archivo robots.txt. Se utiliza para la especificación. Se ingresa el nombre del bot, para lo cual seguirán más instrucciones. Por ejemplo:

Agente de usuario: robot de Google- la directiva básica en este formulario significa que todos los siguientes comandos conciernen solo al robot de indexación de Google;
Agente de usuario: Yandex- los permisos y prohibiciones prescritos están destinados al robot Yandex.

Grabación Agente de usuario: * significa hacer referencia a todos los demás motores de búsqueda (el carácter especial "*" significa "cualquier texto"). Si tenemos en cuenta el ejemplo anterior, el asterisco designará todos los motores de búsqueda, excepto "Yandex". Porque Google prescinde por completo del atractivo personal y se contenta con la designación general "cualquier texto".

El comando más común para deshabilitar la indexación. Refiriéndose al robot en "User-agent:", entonces el programador indica que no permite que el bot indexe parte del sitio o todo el sitio (en este caso, se indica la ruta desde la raíz). La araña de búsqueda entiende esto al expandir el comando. Lo resolveremos también.

Agente de usuario: Yandex

Si hay una entrada de este tipo en robots.txt, entonces el bot de búsqueda de Yandex entiende que no puede indexar el recurso web como tal: no hay aclaraciones después del signo de prohibición "/".

Agente de usuario: Yandex

No permitir: /wp-admin

En este ejemplo, hay aclaraciones: la prohibición de indexación se aplica solo a la carpeta del sistema wp-admin(el sitio funciona con WordPress). El robot Yandex ve el comando y no indexa la carpeta especificada.

Agente de usuario: Yandex

No permitir: /wp-content/themes

Esta directiva le dice al rastreador que puede indexar todo el contenido " wp-content", con la excepción de " temas", lo que hará el robot.

Agente de usuario: Yandex

No permitir: /index$

Aparece otro símbolo importante "$", que permite flexibilidad en las prohibiciones. En este caso, el robot entiende que no está permitido indexar páginas cuyos enlaces contengan la secuencia de letras " índice". Un archivo separado con el mismo nombre " índice.php» Puede indexar, y el robot lo entiende claramente.

Puede prohibir la indexación de páginas individuales del recurso, cuyos enlaces contienen ciertos caracteres. Por ejemplo:

Agente de usuario: Yandex

El robot Yandex lee el comando de esta manera: no indexe todas las páginas con URL que contengan "&" entre otros caracteres.

Agente de usuario: Yandex

En este caso, el robot entiende que las páginas no se pueden indexar solo si sus direcciones terminan en "&".

Por qué es imposible indexar archivos del sistema, archivos, datos personales de los usuarios, creemos que está claro: este no es un tema de discusión. No hay absolutamente ninguna necesidad de que un robot de búsqueda pierda tiempo comprobando datos que nadie necesita. Pero con respecto a las prohibiciones en la indexación de páginas, muchas personas hacen preguntas: ¿cuál es el motivo de la conveniencia de las directivas prohibitivas? Los desarrolladores experimentados pueden dar una docena de razones diferentes para prohibir la indexación, pero la principal será la necesidad de deshacerse de las páginas duplicadas en la búsqueda. Si hay alguno, afecta drásticamente negativamente la clasificación, la relevancia y otros aspectos importantes. Por lo tanto, la optimización SEO interna es impensable sin robots.txt, en el que es bastante simple lidiar con los duplicados: solo necesita usar correctamente la directiva "Disallow:" y los caracteres especiales.

3. "Permitir:"

El archivo de robots mágicos le permite no solo ocultar cosas innecesarias de los motores de búsqueda, sino también abrir el sitio para indexarlo. robots.txt que contiene el comando " permitir:”, le dice a las arañas de los motores de búsqueda qué elementos del recurso web deben agregarse a la base de datos. Las mismas aclaraciones que en el comando anterior vienen al rescate, solo que ahora amplían el rango de permisos para los rastreadores.

Tomemos uno de los ejemplos dados en el párrafo anterior y veamos cómo cambia la situación:

Agente de usuario: Yandex

Permitir: /wp-admin

Si "Deshabilitar:" significó una prohibición, ahora el contenido de la carpeta del sistema wp-admin pasa a ser propiedad de Yandex legalmente y puede aparecer en los resultados de búsqueda.

Pero en la práctica, este comando rara vez se usa. Hay una explicación perfectamente lógica para esto: la ausencia de un rechazo, indicado por "Disallow:", permite que las arañas de búsqueda consideren todo el sitio como permitido para la indexación. No se requiere una directiva separada para esto. Si hay prohibiciones, el contenido que no cae bajo ellas también es indexado por robots por defecto.

Dos comandos más importantes para las arañas de búsqueda. " anfitrión:"- una directiva de destino para un motor de búsqueda nacional. Yandex se guía por él cuando determina el espejo principal de un recurso web cuya dirección (con o sin www) participará en la búsqueda.

Considere el ejemplo de PR-CY.ru:

Agente de usuario: Yandex

La directiva se utiliza para evitar la duplicación del contenido del recurso.

Equipo " mapa del sitio:» ayuda a los robots a moverse correctamente al mapa del sitio: un archivo especial que representa una estructura jerárquica de páginas, tipo de contenido, información sobre la frecuencia de las actualizaciones, etc. El archivo sirve como navegador para las arañas de búsqueda sitemap.xml(en el motor de wordpress) sitemap.xml.gz), a la que deben llegar lo más rápido posible. Luego, la indexación acelerará no solo el mapa del sitio, sino también todas las demás páginas que no se ralentizarán para aparecer en los resultados de búsqueda.

Ejemplo hipotético:

Comandos que se indican en el archivo de texto de robots y que Yandex acepta:

Directiva	Qué está haciendo
	Nombra la araña de búsqueda para la que se escriben las reglas enumeradas en el archivo.
	Indica una prohibición para que los robots indexen el sitio, sus secciones o páginas individuales.
	Especifica la ruta al mapa del sitio alojado en el recurso web.
	Contiene la siguiente información para la araña de búsqueda: La URL de la página incluye parámetros no indexables (como etiquetas UTM).
	Otorga permiso para indexar secciones y páginas de un recurso web.
	Le permite retrasar el escaneo. Indica el tiempo mínimo (en segundos) para el rastreador entre cargas de página: después de verificar una, la araña espera la cantidad de tiempo especificada antes de solicitar la siguiente página de la lista.

*Directiva requerida.

Los comandos Disallow, Sitemap y Clean-param son los más solicitados. Veamos un ejemplo:

User-agent: * #indicando los robots a los que van destinados los siguientes comandos.
Disallow: /bin/ # Evita que los indexadores rastreen los enlaces del carrito de compras.
No permitir: /buscar/ # no permitir la indexación de páginas de búsqueda en el sitio.
No permitir: /admin/ # no permitir la búsqueda en el panel de administración.
Mapa del sitio: http://example.com/sitemap # indica la ruta al mapa del sitio para el rastreador.
Clean-param: ref /some_dir/get_book.pl

Recuerde que las interpretaciones anteriores de las directivas son relevantes para Yandex: las arañas de otros motores de búsqueda pueden leer los comandos de manera diferente.

Se crea la base teórica: es hora de crear un robot de archivo de texto ideal (bueno, o muy parecido). Si el sitio se ejecuta en un motor (Joomla!, WordPress, etc.), se le suministra una gran cantidad de objetos, sin los cuales el funcionamiento normal es imposible. Pero no hay ningún componente informativo en dichos archivos. En la mayoría de los CMS, el almacenamiento de contenido es la base de datos, pero los robots no pueden acceder a ella. Y continúan buscando contenido en los archivos del motor. En consecuencia, se desperdicia el tiempo asignado para la indexación.

Muy importante Esfuérzate por contenido único tu recurso web , monitoreando cuidadosamente la ocurrencia de duplicados. Incluso una repetición parcial del contenido de información del sitio no tiene el mejor efecto en su evaluación por parte de los motores de búsqueda. Si se puede encontrar el mismo contenido en diferentes URL, esto también se considera duplicado.

Los dos motores de búsqueda principales, Yandex y Google, inevitablemente revelarán la duplicación durante el rastreo y bajarán artificialmente la posición del recurso web en los resultados de búsqueda.

No olvide una gran herramienta para ayudarlo a lidiar con la duplicación: metaetiqueta canónica. Al escribir una URL diferente en él, el webmaster le indica a la araña de búsqueda la página preferida para la indexación, que será la canónica.

Por ejemplo, una página con paginación https://ktonanovenkogo.ru/page/2 contiene la metaetiqueta Canonical que apunta a https://ktonanovenkogo.ru , lo que elimina los problemas con los encabezados duplicados.

Entonces, reunimos todos los conocimientos teóricos adquiridos y procedemos a su implementación práctica en robots.txt para su recurso web, cuyas especificidades deben tenerse en cuenta. Lo que se requiere para este importante archivo:

editor de texto (Bloc de notas o cualquier otro) para escribir y editar robots;
un probador que ayudará a encontrar errores en el documento creado y verificará la corrección de las prohibiciones de indexación (por ejemplo, Yandex.Webmaster);
Un cliente FTP que simplifica la carga de un archivo terminado y verificado a la raíz de un recurso web (si el sitio se ejecuta en WordPress, los robots se almacenan con mayor frecuencia en la carpeta del sistema Public_html).

Lo primero que hace un rastreador de búsqueda es solicitar un archivo creado específicamente para él y ubicado en la URL "/robots.txt".

Un recurso web puede contener un único archivo "/robots.txt". No es necesario colocarlo en subdirectorios personalizados donde las arañas no buscarán el documento de todos modos. Si desea crear robots en subdirectorios, debe recordar que aún debe recopilarlos en un solo archivo en la carpeta raíz. Usar la etiqueta meta "Robots" es más apropiado.

Las URL distinguen entre mayúsculas y minúsculas; recuerde que "/robots.txt" no está en mayúsculas.

Ahora debe ser paciente y esperar a las arañas de búsqueda, quienes primero examinarán su archivo robots.txt correcto y correctamente creado y comenzarán a rastrear su portal web.

Configuración correcta de robots.txt para indexar sitios en diferentes motores

Si tiene un recurso comercial, entonces la creación del archivo de robots debe confiarse a un especialista en SEO con experiencia. Esto es especialmente importante si el proyecto es complejo. Para aquellos que no están listos para aceptar lo que se ha dicho como un axioma, expliquemos: este importante archivo de texto tiene un impacto serio en la indexación del recurso por parte de los motores de búsqueda, la velocidad de procesamiento del sitio por parte de los bots depende de su corrección. , y el contenido de robots tiene sus propios detalles. El desarrollador debe tener en cuenta el tipo de sitio (blog, tienda en línea, etc.), el motor, las características estructurales y otros aspectos importantes que un maestro novato quizás no pueda hacer.

Al mismo tiempo, debe tomar las decisiones más importantes: qué cerrar del rastreo, qué dejar visible para los rastreadores para que las páginas aparezcan en la búsqueda. Será muy difícil para un SEO sin experiencia hacer frente a tal volumen de trabajo.

Agente de usuario:* # reglas generales para robots, excepto "Yandex" y Google,

No permitir: /cgi-bin # carpeta de alojamiento
no permitir: /? # todos los parámetros de consulta en el principal
No permitir: /wp- # todos los archivos WP: /wp-json/, /wp-includes, /wp-content/plugins
Deshabilitar: /wp/ # si hay un subdirectorio /wp/ donde está instalado el CMS (si no, # la regla se puede eliminar)
No permitir: *?s= # búsqueda
No permitir: *&s= # búsqueda
No permitir: /buscar/ # búsqueda
No permitir: /autor/ # archivista
No permitir: /usuarios/ # archivadores
No permitir: */trackback # trackbacks, notificaciones en comentarios sobre un enlace abierto # a un artículo
No permitir: */feed # todos los feeds
No permitir: */rss # rssfeed
No permitir: */incrustar # todas las incrustaciones
No permitir: */wlwmanifest.xml # Archivo xml de manifiesto de Windows Live Writer (se puede eliminar si no se usa)
No permitir: /xmlrpc.php # archivo API de WordPress
No permitir: *utm*= # enlaces con etiquetas utm
No permitir: *openstat= # enlaces etiquetadosopenstat
Permitir: */cargas # carpeta abierta con archivos cargados
Mapa del sitio: http://site.ru/sitemap.xml # dirección del mapa del sitio

Agente de usuario: GoogleBot& # reglas para Google

No permitir: /cgi-bin

No permitir: /wp-
No permitir: /wp/
No permitir: *?s=
No permitir: *&s=
No permitir: /buscar/
No permitir: /autor/
No permitir: /usuarios/
No permitir: */retroceso
No permitir: */alimentar
No permitir: */rss
No permitir: */incrustar
No permitir: */wlwmanifest.xml
No permitir: /xmlrpc.php
No permitir: *utm*=
No permitir: *openstat=
Permitir: */uploadsAllow: /*/*.js # abrir scripts js dentro de /wp- (/*/ - por prioridad)
Permitir: /*/*.css # abrir archivos css dentro de /wp- (/*/ - por prioridad)
Permitir: /wp-*.png # imágenes en complementos, carpeta de caché, etc.
Permitir: /wp-*.jpg # imágenes en complementos, carpeta de caché, etc.
Permitir: /wp-*.jpeg # imágenes en complementos, carpeta de caché, etc.
Permitir: /wp-*.gif # imágenes en complementos, carpeta de caché, etc.
Permitir: /wp-admin/admin-ajax.php # utilizado por complementos para no bloquear JS y CSS

Agente de usuario: Yandex # reglas para Yandex

No permitir: /cgi-bin

No permitir: /wp-
No permitir: /wp/
No permitir: *?s=
No permitir: *&s=
No permitir: /buscar/
No permitir: /autor/
No permitir: /usuarios/
No permitir: */retroceso
No permitir: */alimentar
No permitir: */rss
No permitir: */incrustar
No permitir: */wlwmanifest.xml
No permitir: /xmlrpc.php
Permitir: */cargas
Permitir: /*/*.js
Permitir: /*/*.css
Permitir: /wp-*.png
Permitir: /wp-*.jpg
Permitir: /wp-*.jpeg
Permitir: /wp-*.gif
Permitir: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex recomienda no cerrar # la indexación, sino eliminar los parámetros de las etiquetas, # Google no admite tales reglas
Clean-Param: openstat # similar

Agente de usuario: *
No permitir: /administrador/
No permitir: /caché/
No permitir: /incluye/
No permitir: /instalación/
No permitir: /idioma/
No permitir: /bibliotecas/
No permitir: /medios/
No permitir: /módulos/
No permitir: /complementos/
No permitir: /plantillas/
No permitir: /tmp/
No permitir: /xmlrpc/
Mapa del sitio: http://ruta de su mapa del sitio XML

Agente de usuario: *
No permitir: /*index.php$
No permitir: /bitrix/
No permitir: /auth/
No permitir: /personal/
No permitir: /subir/
No permitir: /buscar/
No permitir: /*/buscar/
No permitir: /*/slide_show/
No permitir: /*/gallery/*order=*
No permitir: /?print=
No permitir: /*&print=
No permitir: /*registrar=
No permitir: /*forgot_password=
No permitir: /*cambiar_contraseña=
No permitir: /*login=
No permitir: /*cerrar sesión=
No permitir: /*autor=
No permitir: /?action=
No permitir: /*action=ADD_TO_COMPARE_LIST
No permitir: /*action=DELETE_FROM_COMPARE_LIST
No permitir: /*acción=ADD2BASKET
No permitir: /*acción=COMPRAR
No permitir: /*bitrix_*=
No permitir: /*backurl=*
No permitir: /*BACKURL=*
No permitir: /*back_url=*
No permitir: /*BACK_URL=*
No permitir: /*back_url_admin=*
No permitir: /*print_course=Y
No permitir: /*COURSE_ID=
No permitir: /?COURSE_ID=
No permitir: //?PAGEN
No permitir: /*PAGEN_1=
No permitir: /*PAGEN_2=
No permitir: /*PAGEN_3=
No permitir: /*PAGEN_4=
No permitir: /*PAGEN_5=
No permitir: /*PAGEN_6=
No permitir: /*PAGEN_7=

No permitir: /*PAGE_NAME=buscar
No permitir: /*PAGE_NAME=user_post
No permitir: /*PAGE_NAME=detail_slide_show
No permitir: /*MOSTRAR
No permitir: /*show_all=
Mapa del sitio: http://ruta de su mapa del sitio XML

Agente de usuario: *
No permitir: /activos/caché/
No permitir: /activos/docs/
No permitir: /activos/exportar/
No permitir: /activos/importar/
No permitir: /activos/módulos/
No permitir: /activos/complementos/
No permitir: /activos/fragmentos/
No permitir: /instalar/
No permitir: /gerente/
Mapa del sitio: http://site.ru/sitemap.xml

5. Robots.txt, un ejemplo para Drupal

Agente de usuario: *
No permitir: /base de datos/
No permitir: /incluye/
No permitir: /misc/
No permitir: /módulos/
No permitir: /sitios/
No permitir: /temas/
No permitir: /guiones/
No permitir: /actualizaciones/
No permitir: /perfiles/
No permitir: /perfil
No permitir: /perfil/*
No permitir: /xmlrpc.php
No permitir: /cron.php
No permitir: /update.php
No permitir: /install.php
No permitir: /index.php
No permitir: /admin/
No permitir: /comentario/respuesta/
No permitir: /contacto/
No permitir: /cerrar sesión/
No permitir: /buscar/
No permitir: /usuario/registrarse/
No permitir: /usuario/contraseña/
No permitir: *registrarse*
No permitir: *iniciar sesión*
No permitir: /mejor calificado-
No permitir: /mensajes/
No permitir: /libro/exportar/
No permitir: /usuario2puntosdeusuario/
No permitir: /mispuntosdeusuario/
No permitir: /tagadelic/
No permitir: /referencia/
No permitir: /agregador/
No permitir: /archivos/pin/
No permitir: /tus-votos
No permitir: /comentarios/reciente
No permitir: /*/editar/
No permitir: /*/borrar/
No permitir: /*/exportar/html/
No permitir: /taxonomía/término/*/0$
No permitir: /*/editar$
No permitir: /*/esquema$
No permitir: /*/revisiones$
No permitir: /*/contacto$
No permitir: /*descarga
No permitir: /nodo$
No permitir: /nodo/*/pista$

No permitir: /?page=0
No permitir: /*sección
No permitir: /* ordenar
No permitir: /?ordenar*
No permitir: /*&ordenar*
No permitir: /*votos hacia arriba
No permitir: /*calendario
No permitir: /*index.php
Permitir: /?page=

Mapa del sitio: http://ruta a su mapa del sitio XML

¡ATENCIÓN! Los sistemas de administración de contenido del sitio se actualizan constantemente, por lo que el archivo de robots también puede cambiar: se pueden cerrar páginas adicionales o grupos de archivos o, por el contrario, abrirse para indexación. Depende de los objetivos del recurso web y de los cambios del motor actual.

7 errores comunes al indexar un sitio usando robots.txt

Los errores cometidos durante la creación del archivo hacen que robots.txt funcione incorrectamente o incluso impidan que el archivo funcione.

Qué errores son posibles:

Lógico (las reglas marcadas chocan). Puede identificar este tipo de error durante las pruebas en Yandex.Webmaster y GoogleRobotsTestingTool.
Sintáctica (las directivas se escriben con errores).

Más comunes que otros son:

el registro no distingue entre mayúsculas y minúsculas;
se utilizan letras mayúsculas;
todas las reglas se enumeran en una línea;
las reglas no están separadas por una línea vacía;
especificando el rastreador en la directiva;
cada archivo de la carpeta que debe cerrarse se enumera por separado;
falta la directiva Disallow obligatoria.

Considerar errores comunes, sus consecuencias y, lo más importante, las medidas para prevenirlas en su recurso web.

Ubicación del archivo. La URL del archivo debe tener el siguiente formato: http://site.ru/robots.txt (en lugar de site.ru, aparece la dirección de su sitio). El archivo robots.txt se basa exclusivamente en la carpeta raíz del recurso; de lo contrario, las arañas de búsqueda no lo verán. Sin ser prohibido, rastrearán todo el sitio e incluso aquellos archivos y carpetas que le gustaría ocultar de los resultados de búsqueda.
Distingue mayúsculas y minúsculas. Sin mayúsculas. http://site.ru/Robots.txt está mal. En este caso, el robot del buscador recibirá un 404 (página de error) o 301 (redireccionamiento) como respuesta del servidor. El rastreo se realizará sin tener en cuenta las directivas indicadas en robots. Si todo se hace correctamente, la respuesta del servidor es el código 200, en el que el propietario del recurso podrá controlar el rastreador de búsqueda. La única opción correcta es "robots.txt".
Apertura en una página del navegador. Las arañas de búsqueda solo podrán leer y usar correctamente las directivas del archivo robots.txt si se abre en una página del navegador. Es importante prestar mucha atención al lado del servidor del motor. A veces se ofrece un archivo de este tipo para descargar. Luego, debe configurar la visualización; de lo contrario, los robots rastrearán el sitio a su antojo.
Errores de prohibición y permiso."Rechazar": una directiva para prohibir el escaneo del sitio o sus secciones. Por ejemplo, debe evitar que los robots indexen páginas con resultados de búsqueda en el sitio. En este caso, el archivo robots.txt debe contener la línea: "Disallow: /search/". El rastreador entiende que todas las páginas donde se produce la "búsqueda" tienen prohibido rastrear. Con una prohibición total de indexación, se escribe Disallow: /. Pero la directiva de autorización "Permitir" no es necesaria en este caso. Aunque no es raro que un comando se escriba así: "Permitir:", suponiendo que el robot lo percibirá como un permiso para indexar "nada". Puede permitir que todo el sitio se indexe a través de la directiva "Permitir: /". No hay necesidad de confundir los comandos. Esto conduce a errores de rastreo por parte de las arañas, que eventualmente agregan páginas que no son en absoluto las que deberían promocionarse.
coincidencia directiva. Disallow: y Allow: para la misma página se encuentran en robots, lo que hace que los rastreadores prioricen la directiva allow. Por ejemplo, inicialmente la partición se abrió para que las arañas se arrastraran. Luego, por alguna razón, se decidió ocultarlo del índice. Naturalmente, se agrega una prohibición al archivo robots.txt, pero el webmaster se olvida de eliminar el permiso. Para los motores de búsqueda, la prohibición no es tan importante: prefieren indexar la página sin pasar por los comandos que se excluyen entre sí.
Directiva de host:. Reconocido solo por las arañas Yandex y utilizado para determinar el espejo principal. Un comando útil, pero, por desgracia, parece ser erróneo o desconocido para todos los demás motores de búsqueda. Al involucrarlo en sus robots, es óptimo especificar como User-agent: todos y el robot Yandex, para lo cual puede registrar personalmente el comando Host:
Agente de usuario: Yandex
Anfitrión: site.ru

La directiva prescrita para todos los rastreadores será percibida por ellos como errónea.
Directiva del mapa del sitio:. Con la ayuda de un mapa del sitio, los bots descubren qué páginas se encuentran en un recurso web. Un error muy común es que los desarrolladores no prestan atención a la ubicación del archivo sitemap.xml, aunque determina la lista de URL incluidas en el mapa. Al colocar el archivo fuera de la carpeta raíz, los propios desarrolladores ponen en riesgo el sitio: los rastreadores determinan incorrectamente la cantidad de páginas, como resultado, partes importantes del recurso web no se incluyen en los resultados de búsqueda.

Por ejemplo, al colocar un archivo Sitemap en un directorio en la URL http://primer.ru/catalog/sitemap.xml , puede incluir cualquier URL que comience con http://primer.ru/catalog/ ... Y URL como, digamos, http://primer.ru/images/ ... no debe incluirse en la lista.

Resumir. Si el propietario del sitio quiere influir en el proceso de indexación de un recurso web por parte de los robots de búsqueda, el archivo robots.txt es de particular importancia. Es necesario verificar cuidadosamente el documento creado en busca de errores lógicos y sintácticos, para que al final las directivas funcionen para el éxito general de su sitio, asegurando una indexación rápida y de alta calidad.

Cómo evitar errores creando la estructura correcta de robots.txt para la indexación del sitio

La estructura de robots.txt es clara y simple, es bastante posible escribir el archivo usted mismo. Solo necesita monitorear cuidadosamente la sintaxis que es extremadamente importante para los robots. Los bots de búsqueda siguen las directivas del documento voluntariamente, pero los motores de búsqueda interpretan la sintaxis de manera diferente.

Una lista de las siguientes reglas obligatorias ayudará a eliminar los errores más comunes al crear robots.txt. Para escribir el documento correcto, debes recordar que:

cada directiva comienza con nueva línea;
en una línea, no más de un comando;
no se puede colocar un espacio al principio de una línea;
el parámetro de comando debe estar en una línea;
no es necesario citar los parámetros de directiva;
los parámetros de comando no requieren un punto y coma al final;
la directiva en robots.txt se especifica en el formato: [nombre_comando]:[espacio opcional][valor][espacio opcional];
después del signo de libra # se permiten comentarios en robots.txt;
una cadena vacía puede interpretarse como el final del comando User-agent;
la directiva de prohibición con un valor vacío - "Deshabilitar:" es similar a la directiva "Permitir: /" que permite escanear todo el sitio;
Las directivas "Permitir", "No permitir" no pueden contener más de un parámetro. Cada nuevo parámetro se escribe en una nueva línea;
solo se usan letras minúsculas en el nombre del archivo robots.txt. Robots.txt o ROBOTS.TXT - errores ortográficos;
El estándar robots.txt no regula la distinción entre mayúsculas y minúsculas, pero los archivos y carpetas suelen ser sensibles en este asunto. Por lo tanto, aunque es aceptable usar letras mayúsculas en los nombres de los comandos y parámetros, esto se considera de mala forma. Es mejor no dejarse llevar por las mayúsculas;
cuando el parámetro de comando es una carpeta, se requiere una barra inclinada "/" antes del nombre, por ejemplo: Disallow: /category;
si el archivo robots.txt pesa más de 32 KB, los robots de búsqueda lo perciben como equivalente a "Disallow:" y lo consideran completamente compatible con la indexación;
falta de disponibilidad de robots.txt (por diferentes razones) puede ser percibido por los rastreadores como la ausencia de prohibiciones de escaneo;
Se considera que el archivo robots.txt vacío permite la indexación del sitio como un todo;
si se enumeran varios comandos de "agente de usuario" sin una línea en blanco entre ellos, las arañas de búsqueda pueden tratar la primera directiva como la única, ignorando todas las directivas de "agente de usuario" posteriores;
robots.txt no permite el uso de ningún símbolo de alfabetos nacionales.

Las reglas anteriores no son relevantes para todos los motores de búsqueda, porque interpretan la sintaxis de robots.txt de manera diferente. Por ejemplo, "Yandex" selecciona entradas por la presencia en la línea "User-agent", por lo que no le importa la presencia de una línea vacía entre diferentes directivas "User-agent".

En general, los robots deben contener solo lo que realmente se necesita para una indexación adecuada. No hay necesidad de intentar abarcar la inmensidad y encajar el máximo de datos en el documento. El mejor archivo robots.txt es un archivo significativo, el número de líneas no importa.

Se debe verificar que los robots de documentos de texto tengan la estructura y la sintaxis correctas, lo que ayudará a los servicios presentados en la Web. Para hacer esto, debe cargar robots.txt en la carpeta raíz de su sitio; de lo contrario, el servicio puede informar que no pudo cargar el documento requerido. Antes de robots.txt, se recomienda verificar la disponibilidad en la dirección del archivo (your_site.ru/robots.txt).

Los motores de búsqueda más grandes, Yandex y Google, ofrecen sus servicios de análisis de sitios web a los webmasters. Uno de los aspectos del trabajo analítico es la verificación de robots:

Puede consultar el archivo en Yandex.Webmaster en http://webmaster.yandex.ru/robots.xml.
En Google, las herramientas de verificación se encuentran en https://www.google.com/webmasters/tools/siteoverview?hl=ru.

Hay muchos validadores de robots.txt en línea en Internet, puede elegir el que desee.

Array ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Artículos de Pavel Bobylev [~NAME] => Artículos de Pavel Bobylev => 11744 [ ~IMAGEN] = > 11744 => 13 [~MARGEN_IZQUIERDO] => 13 => 14 [~MARGEN_DERECHO] => 14 => 1 [~NIVEL_PROFUNDIDAD] => 1 => Pavel Bobylev [~DESCRIPCIÓN] => Pavel Bobylev => text [~DESCRIPTION_TYPE ] => text => Artículos de Pavel Bobylev Pavel Bobylev [~SEARCHABLE_CONTENT] => Artículos de Pavel Bobylev Pavel Bobylev => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)

El archivo robots.txt es un conjunto de directivas (un conjunto de reglas para robots) con las que puede evitar o permitir que los robots de búsqueda indexen ciertas secciones y archivos de su sitio, así como proporcionar información adicional. Inicialmente, con la ayuda de robots.txt, realmente solo era posible prohibir la indexación de secciones, la capacidad de permitir la indexación apareció más tarde y fue introducida por los líderes de búsqueda Yandex y Google.

La estructura del archivo robots.txt

Primero, se escribe la directiva User-agent, que muestra a qué rastreador se refieren las instrucciones.

Una pequeña lista de agentes de usuario conocidos y de uso común:

Agente de usuario:*
Agente de usuario: Yandex
Agente de usuario: robot de Google
Agente de usuario: Bingbot
Agente de usuario: YandexImages
Agente de usuario: Mail.RU

A continuación, se especifican las directivas Disallow y Allow, que prohíben o permiten la indexación de secciones, páginas individuales del sitio o archivos, respectivamente. Luego repetimos estos pasos para el siguiente User-agent. Al final del archivo se especifica la directiva Sitemap, donde se especifica la dirección de tu sitemap.

Al escribir las directivas Disallow y Allow, puede usar los caracteres especiales * y $. Aquí * significa "cualquier carácter" y $ significa "fin de línea". Por ejemplo, Disallow: /admin/*.php significa que está prohibida la indexación de todos los archivos que están en la carpeta admin y terminan en .php. Disallow: /admin$ prohíbe la dirección /admin, pero no prohíbe /admin. php, o /admin/new/, si lo hay.

Si todos los User-agents usan el mismo conjunto de directivas, no hay necesidad de duplicar esta información para cada uno de ellos, User-agent: * será suficiente. En caso de que sea necesario complementar información para algunos de los agentes de usuario, debe duplicar la información y agregar una nueva.

Ejemplo robots.txt para WordPress:

*Nota para el agente de usuario: Yandex

Compruebe robots.txt

Versión antigua de Search Console

Para verificar la corrección de robots.txt, puede usar Webmaster de Google- debe ir a la sección "Escaneo" y luego "Ver como Googlebot", luego haga clic en el botón "Obtener y mostrar". Como resultado del escaneo, se presentarán dos capturas de pantalla del sitio, que muestran cómo los usuarios ven el sitio y cómo lo ven los robots de búsqueda. Y debajo habrá una lista de archivos, cuya prohibición de indexación impide la lectura correcta de su sitio por parte de los robots de búsqueda (deberán permitir que se indexen para el robot de Google).

Por lo general, estos pueden ser varios archivos de estilo (css), JavaScript e imágenes. Después de permitir la indexación de estos archivos, ambas capturas de pantalla en Webmaster deberían ser idénticas. Las excepciones son los archivos que se encuentran de forma remota, por ejemplo, el script Yandex.Metrica, los botones redes sociales etc. No podrá prohibirlos/permitirlos para la indexación. Para obtener más información sobre cómo resolver el error "Googlebot no puede acceder a los archivos CSS y JS en el sitio", lea nuestro blog.

Nueva versión de Consola de búsqueda

A nueva versión no hay un elemento de menú separado para verificar robots.txt. Ahora basta con insertar la dirección del país deseado en la barra de búsqueda.

En la siguiente ventana, haga clic en "Examinar la página escaneada".

En la ventana que aparece se pueden ver recursos que, por una u otra razón, son inaccesibles para el robot de google. En este ejemplo particular, no hay recursos bloqueados por el archivo robots.txt.

Si existen tales recursos, verá mensajes como el siguiente:

Cada sitio tiene un archivo robots.txt único, pero algunos características comunes se puede enumerar de la siguiente manera:

Cierra páginas de autorización, páginas de registro de indexación, recuerda tu contraseña y otras páginas técnicas.
Panel de administración de recursos.
Clasificación de páginas, páginas del tipo de visualización de información en el sitio.
Para páginas de carrito de compras en línea, favoritos. Puede leer más detalles en los consejos para tiendas en línea sobre la configuración de indexación en el blog de Yandex.
Página de búsqueda.

Esta es solo una lista aproximada de lo que se puede cerrar a partir de la indexación de los robots de los motores de búsqueda. En cada caso, debe comprender de forma individual, en algunas situaciones puede haber excepciones a las reglas.

Conclusión

El archivo robots.txt es una herramienta importante para regular la relación entre el sitio y el robot del motor de búsqueda, es importante tomarse el tiempo para configurarlo.

En el artículo un gran número de la información está dedicada a los robots de Yandex y Google, pero esto no significa que deba crear un archivo solo para ellos. Hay otros robots: Bing, Mail.ru, etc. Puede complementar robots.txt con instrucciones para ellos.

Muchos cms modernos crean un archivo robots.txt automáticamente y pueden contener directivas obsoletas. Por lo tanto, después de leer este artículo, recomiendo verificar el archivo robots.txt en su sitio y, si están presentes, es recomendable eliminarlos. Si no sabe cómo hacerlo, póngase en contacto con

Robots.txt para wordpress es una de las principales herramientas para configurar la indexación. Anteriormente hablamos de acelerar y mejorar el proceso de indexación de artículos. Además, consideraron este problema como si el robot de búsqueda no supiera y no pudiera hacer nada. Y tenemos que decírselo. Para esto usamos un archivo de mapa del sitio.

¿Quizás aún no sabe cómo el robot de búsqueda indexa su sitio? De forma predeterminada, se permite indexar todo. Pero no lo hace de inmediato. El robot, al recibir una señal de que es necesario visitar el sitio, lo pone en cola. Por lo tanto, la indexación no ocurre instantáneamente cuando lo solicitamos, sino después de un tiempo. Una vez que es el turno de su sitio, este robot araña está allí. En primer lugar, busca el archivo robots.txt.

Si se encuentra robots.txt, lee todas las directivas y ve la dirección del archivo al final. Luego, el robot, de acuerdo con el mapa del sitio, pasa por alto todos los materiales proporcionados para la indexación. Él hace esto dentro de un período limitado de tiempo. Por eso, si ha creado un sitio con varios miles de páginas y lo ha publicado en su totalidad, entonces el robot simplemente no tendrá tiempo de recorrer todas las páginas de una sola vez. Y solo aquellos que logró ver entrarán en el índice. Y el robot camina por todo el sitio y pasa su tiempo en él. Y no es un hecho que, en primer lugar, verá exactamente las páginas que está esperando en los resultados de búsqueda.

Si el robot no encuentra el archivo robots.txt, considera que todo está permitido indexarlo. Y comienza a hurgar en todas las callejuelas. Después de hacer una copia completa de todo lo que pudo encontrar, abandona su sitio, hasta la próxima vez. Como comprenderá, después de una búsqueda de este tipo, todo lo que se necesita y todo lo que no se necesita ingresa en la base del índice del motor de búsqueda. Lo que necesita saber son sus artículos, páginas, imágenes, videos, etc. ¿Por qué no necesitas indexar?

Para WordPress, esto resulta ser un tema muy importante. La respuesta afecta tanto a la aceleración de la indexación del contenido de su sitio, como a su seguridad. El punto es que todo servicio de información no hay necesidad de indexar. Y generalmente es deseable ocultar los archivos de WordPress de miradas indiscretas. Esto reducirá la posibilidad de que su sitio sea pirateado.

WordPress crea muchas copias de sus artículos con diferentes URL pero el mismo contenido. Se parece a esto:

//nombre_del_sitio/nombre_del_artículo,

//nombre_sitio/nombre_categoría/nombre_artículo,

//nombre_del_sitio/nombre_del_encabezado/nombre_del_subencabezado/nombre_del_artículo,

//nombre_sitio/nombre_etiqueta/nombre_artículo,

//nombre_del_sitio/fecha_de_creación_del_archivo/nombre_del_artículo

Con etiquetas y archivos en guarda general. A cuántas etiquetas se adjunta un artículo, se crean tantas copias. Al editar un artículo, se crearán tantos archivos en diferentes fechas como aparecerán nuevas direcciones con contenido casi similar. Y también hay copias de artículos con direcciones para cada comentario. Es simplemente horrible.

Una gran cantidad de motores de búsqueda duplicados evalúan como un mal sitio. Si todas estas copias están indexadas y proporcionadas en la búsqueda, entonces el peso del artículo principal se repartirá entre todas las copias, lo cual es muy malo. Y no es un hecho que el artículo con la dirección principal se muestre como resultado de la búsqueda. Por lo tanto, es necesario prohibir la indexación de todas las copias.

WordPress da formato a las imágenes como artículos separados sin texto. De esta forma, sin texto ni descripción, parecen artículos absolutamente incorrectos. Por lo tanto, debe tomar medidas para evitar que los motores de búsqueda indexen estas direcciones.

¿Por qué no debería estar indexado?

¡Cinco razones para prohibir la indexación!

La indexación completa supone una carga adicional para su servidor.
Se necesita un tiempo precioso del propio robot.
Quizás esto sea lo más importante, la información incorrecta puede ser malinterpretada por los motores de búsqueda. Esto conducirá a una clasificación incorrecta de artículos y páginas y, posteriormente, a resultados incorrectos en los resultados de búsqueda.
Las carpetas con plantillas y complementos contienen una gran cantidad de enlaces a los sitios de creadores y anunciantes. Esto es muy malo para un sitio joven, cuando todavía no hay o hay muy pocos enlaces a su sitio desde el exterior.
Al indexar todas las copias de sus artículos en archivos y comentarios, el motor de búsqueda obtiene una mala opinión de su sitio. Un montón de duplicados. Muchos enlaces salientes El motor de búsqueda degradará su sitio en los resultados de búsqueda hasta el punto de filtrarlo. Y las imágenes, diseñadas como un artículo separado con título y sin texto, aterrorizan al robot. Si hay muchos de ellos, entonces el sitio puede vibrar bajo el filtro Yandex AGS. Mi sitio estaba allí. ¡Comprobado!

Ahora bien, después de todo lo dicho, surge una pregunta razonable: "¿Se puede prohibir de alguna manera indexar algo que no es necesario?". Resulta que puedes. Al menos no por encargo, sino por recomendación. La situación de no prohibir completamente la indexación de algunos objetos ocurre debido al archivo sitemap.xml, que se procesa después de robots.txt. Resulta así: robots.txt lo prohíbe y sitemap.xml lo permite. Y, sin embargo, podemos resolver este problema. Cómo hacerlo ahora mismo y considerar.

El archivo wordpress robots.txt es dinámico por defecto y no existe realmente en wordpress. Y se genera solo en el momento en que alguien lo solicita, ya sea un robot o simplemente un visitante. Es decir, si va al sitio a través de una conexión FTP, simplemente no encontrará el archivo robots.txt para wordpress en la carpeta raíz. Y si especifica su dirección específica http://your_site_name/robots.txt en el navegador, obtendrá su contenido en la pantalla como si el archivo existiera. El contenido de este archivo wordpress robots.txt generado será:

En las reglas para compilar el archivo robots.txt, por defecto, se permite indexar todo. La directiva User-agent: * indica que todos los comandos posteriores se aplican a todos los agentes de búsqueda (*). Pero entonces nada es limitado. Y como saben, esto no es suficiente. Ya hemos hablado bastante de carpetas y registros con acceso limitado.

Para poder realizar cambios en el archivo robots.txt y guardarlos allí, debe crearlo de forma estática y permanente.

Cómo crear robots.txt para wordpress

En cualquier editor de texto (solo que en ningún caso use MS Word y similares con elementos de formato de texto automático) cree un archivo de texto con el siguiente contenido aproximado y envíelo a la carpeta raíz de su sitio. Se pueden hacer cambios según sea necesario.

Solo debe tener en cuenta las características de compilación del archivo:

Al comienzo de las líneas de números, como aquí en el artículo, no debería haber. Los números se dan aquí para facilitar la revisión del contenido del archivo. No debe haber caracteres adicionales al final de cada línea, incluidos espacios o tabulaciones. Entre los bloques debe haber una línea vacía sin ningún carácter, incluidos los espacios. Un solo espacio puede hacerte mucho daño - TEN CUIDADO .

Cómo verificar robots.txt para wordpress

Puede verificar si hay espacios adicionales en robots.txt de la siguiente manera. En un editor de texto, seleccione todo el texto presionando Ctrl+A. Si no hay espacios al final de las líneas y líneas vacías, lo notará. Y si hay un vacío seleccionado, entonces debe eliminar los espacios y todo estará bien.

Puede comprobar si las normas prescritas funcionan correctamente en los siguientes enlaces:

Análisis de robots.txt Webmaster Yandex
Análisis de robots.txt en la consola de búsqueda de Google.
Servicio para crear un archivo robots.txt: http://pr-cy.ru/robots/
Servicio de creación y comprobación de robots.txt: https://seolib.ru/tools/generate/robots/
Documentación de Yandex .
Documentación de google(Inglés)

Hay otra forma de verificar el archivo robots.txt para un sitio de wordpress, esto es cargar su contenido al webmaster de Yandex o especificar la dirección de su ubicación. Si hay algún error, lo sabrá inmediatamente.

Corregir robots.txt para wordpress

Ahora pasemos directamente al contenido del archivo robots.txt para un sitio de wordpress. Qué directivas deben estar presentes en él. El contenido aproximado del archivo robots.txt para wordpress, dadas sus características, es el siguiente:

Agente de usuario: * No permitir: /wp-login.php No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-content/plugins No permitir: /wp-content/themes No permitir: */*comentarios No permitir: * /*categoría No permitir: */*etiqueta No permitir: */trackback No permitir: */*feed No permitir: /*?* No permitir: /?s= Permitir: /wp-admin/admin-ajax.php Permitir: /wp-content /cargas/ Permitir: /*?Replytocom Agente de usuario: Yandex No permitir: /wp-login.php No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-content/plugins No permitir: /wp-content/themes No permitir: */comentarios No permitir: */*categoría No permitir: */*etiqueta No permitir: */trackback No permitir: */*feed No permitir: /*?* No permitir: /*?s= Permitir: /wp-admin/admin- ajax.php Permitir: /wp-content/uploads/ Permitir: //?replytocom Crawl-delay: 2.0 Host: site.ru Sitemap: http://site.ru/sitemap.xml

Directivas de wordpress robots.txt

Ahora echemos un vistazo más de cerca:

1 - Configuración de bloque de 16 líneas para todos los robots

Agente de usuario: esta es una directiva requerida que define el agente de búsqueda. El asterisco dice que la directiva es para robots de todos los motores de búsqueda. Si el bloque está destinado a un robot específico, debe especificar su nombre, por ejemplo, Yandex, como en la línea 18.

De forma predeterminada, todo está permitido para la indexación. Esto es equivalente a la directiva Permitir: /.

Por lo tanto, para prohibir la indexación de carpetas o archivos específicos, se utiliza una directiva especial Disallow:.

En nuestro ejemplo, utilizando nombres de carpetas y máscaras de nombres de archivos, se realiza una prohibición en todas las carpetas de servicios de WordPress, como admin, temas, complementos, comentarios, categoría, etiqueta... Si especifica una directiva en este formulario Disallow: /, entonces se dará una prohibición de indexar todo el sitio.

Permitir: - como dije, la directiva permite indexar carpetas o archivos. Debe usarse cuando hay archivos en las profundidades de las carpetas prohibidas que aún deben indexarse.

En mi ejemplo, la línea 3 Disallow: /wp-admin - prohíbe la indexación de la carpeta /wp-admin, y la línea 14 Allow: /wp-admin/admin-ajax.php - permite la indexación del archivo /admin-ajax.php ubicado en la carpeta de indexación prohibida /wp-admin/.

17 - Línea vacía (simplemente presionando el botón Enter sin espacios)

18 - Bloque de configuración de 33 específicamente para el agente Yandex (agente de usuario: Yandex). Como notó, este bloque repite completamente todos los comandos del bloque anterior. Y surge la pregunta: "¿Qué diablos es tal problema?". Entonces, todo esto se hace solo por algunas directivas que consideraremos más adelante.

34 - Crawl-delay - Directiva opcional solo para Yandex. Se usa cuando el servidor está muy cargado y no tiene tiempo para procesar las solicitudes de robots. Le permite establecer en el robot de búsqueda el retraso mínimo (en segundos y décimas de segundo) entre el final de la carga de una página y el inicio de la carga de la siguiente. El valor máximo permitido es de 2,0 segundos. Se agrega directamente después de las directivas Disallow y Allow.

35 - Cadena vacía

36 - Host: site.ru - nombre de dominio de su sitio (directiva OBLIGATORIA para el bloque Yandex). Si nuestro sitio utiliza el protocolo HTTPS, la dirección debe especificarse en su totalidad como se muestra a continuación:

Anfitrión: https://site.ru

37 - Debe estar presente una cadena vacía (simplemente presionando el botón Enter sin espacios).

38 - Sitemap: http://site.ru/sitemap.xml - dirección de ubicación del archivo sitemap.xml (directiva OBLIGATORIA), ubicada al final del archivo después de una línea vacía y se aplica a todos los bloques.

Máscaras para directivas de archivos robots.txt para wordpress

Ahora un poco de cómo crear máscaras:

Disallow: /wp-register.php: deshabilita la indexación del archivo wp-register.php ubicado en la carpeta raíz.
Disallow: /wp-admin: prohíbe indexar el contenido de la carpeta wp-admin ubicada en la carpeta raíz.
Disallow: /trackback: deshabilita la indexación de notificaciones.
Disallow: /wp-content/plugins: prohíbe indexar el contenido de la carpeta de complementos ubicada en una subcarpeta (carpeta de segundo nivel) de wp-content.
Disallow: /feed: prohíbe la indexación del feed, es decir, cierra la fuente RSS del sitio.
* - significa cualquier secuencia de caracteres, por lo que puede reemplazar tanto un carácter como parte del nombre o el nombre completo de un archivo o carpeta. La ausencia de un nombre específico al final equivale a escribir *.
No permitir: */*comentarios: prohíbe indexar el contenido de carpetas y archivos en cuyo nombre hay comentarios y ubicados en cualquier carpeta. En este caso, evita que se indexen los comentarios.
Disallow: *?s= - prohíbe la indexación de páginas de búsqueda

Las líneas anteriores se pueden usar como un archivo de trabajo robots.txt para wordpress. Solo en 36, 38 líneas, debe ingresar la dirección de su sitio y ELIMINAR OBLIGATORIAMENTE los números de línea. Y obtendrá un archivo de trabajo robots.txt para wordpress , Adaptado a cualquier motor de búsqueda.

La única característica es que el tamaño del archivo robots.txt de trabajo para un sitio de wordpress no debe exceder los 32 kB de espacio en disco.

Si no está absolutamente interesado en Yandex, entonces no necesitará las líneas 18-35 en absoluto. Eso es probablemente todo. Espero que el artículo haya sido útil. Si tienes alguna pregunta escribe en los comentarios.