Robots.txt perfecto para WordPress

code_spider.png

En SigT.net nos ayudan a mejorar nuestro espacio de comunicación. En esta ocasión han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores (¡pecado mortal para Google!).

Por descontado que lo he aplicado tal cual pues las reglas que proponen son del todo acertadas.

Lo tienes aquí mismo y, por supuesto, no dejes de visita el blog de Armonth, un imprescindible.

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Vía | SigT.net

VALORA Y COMPARTE ESTE ARTÍCULO PARA MEJORAR LA CALIDAD DEL BLOG…
(16 votos, promedio: 4.8)

¿Te gustó este artículo? ¡Ni te imaginas lo que te estás perdiendo en YouTube!

AVISO: Esta publicación es de hace 3 años o más. Si es un código o un plugin podría no funcionar en las últimas versiones de WordPress, y si es una noticia podría estar ya obsoleta. Luego no digas que no te hemos avisado.

45 comentarios en “Robots.txt perfecto para WordPress”

  1. Tengo dudas sobre la forma correcta de bloquear las categorias. Es que solo quiere que se indexen los post y las paginas, pero no las categorias.

    Gracias

  2. Hola me gustaría saber donde tengo que poner este código, no se hace una carpeta robots.text y donde?

    muchas gracias de ante mano.

  3. Hola PEDRO, tienes que crear un archivo de texto y copiar el codigo en el, luego tienes que cargarlo en el directorio raiz de tu sitio.

    saludos!

  4. Hola,
    acabo de estrenar una web gestionada con WordPress, y he creado un archivo robots.txt a partir de esta recomendación tuya y unas mínimas modificaciones mías. El caso es que Google ha empezado a indexar algunas páginas de la web, y se ha lanzado en tromba a hacerlo con todas las que tienen la estructura permalink.pdf, justamente las que no me interesaba que cogiera… No lo entiendo, porque probando el robots.txt con el propio Google Webmaster Tools me bloquea perfectamente ese tipo de url. ¿Cual puede ser el problema? De verdad que no lo entiendo…
    Gracias.

  5. Cual es el directorio raiz. Yo lo he puesto, mediante FTP nada mas abrir el wordpress llamado prometheo. Es ahí?.

  6. Pingback: Sugerencias para el “robots.txt” de tu sitio | TodoWordPress

    1. emip3, depende de que tipo de errores son importantes o no. Mejor que usar herramientas de terceros usa las de Google (Webmaster tools) a ver que te cuenta. A mi, por ejemplo, esa herramienta me da como errores pijadas como que una línea debe estar separada de otra con un intro de mas y cosas así.

  7. ok Fer, WB Tools me dice solo tres cositas, a ver vos que sos el que sabe: me dice:

    Crawl-delay: 50 Norma ignorada por Googlebot

    Crawl-delay: 30 Norma ignorada por Googlebot

    Crawl-delay: 10 Norma ignorada por Googlebot

    que son las líneas que están debajo de:

    User-agent: noxtrumbot

    User-agent: msnbot

    User-agent: Slurp

    …respectivamente…

  8. Pingback: Pequeños apuntes sobre Wordpress | Cyberick

  9. Pingback: Puedo usar 2 tipos de robots ?

  10. Hola!!

    Veo que este artículo ya tiene unos años, ¿sigue siendo válido el robots.txt?, ¿hay algo más reciente?

    Saludos!!

  11. Pingback: Archivo robots.txt perfecto para tu blog WordPress | Seofacil.net

  12. Hola buenas,

    Mirando un poco de información para optimizar el archivo robots.txt de mi blog de WP, llegué a éste post y me pareció un apunte muy interesante y bueno.

    A veces los buscadores se ponen a indexar lo que no te interesa, y lo que te interesa tarda mogollón, es la ley de murphy, pero con éste archivo robots.txt, se puede paliar un poco la ley de Murphy.

    muchas gracias y saludos 😉

  13. Pingback: Robot.txt esta bien ?

  14. Buen articulo, me lo guardo porque es muy interesante pero una pregunta…

    si tengo el blog alojado en un subdominio…ejemplo http://www.midominio.com/blog como funciona el robots.txt seria algo así?

    Disallow: /blog/wp-

    Disallow: /blog/?s=

    Disallow: /blog/search

    Allow: /blog/feed/$

    Disallow: /blog/feed

    Disallow: /blog/comments/feed

    Disallow: /blog/*/feed/$

    Disallow: /blog/*/feed/rss/$

    Disallow: /blog/*/trackback/$

    Disallow: /blog/*/*/feed/$

    Disallow: /blog/*/*/feed/rss/$

    Disallow: /blog/*/*/trackback/$

    Disallow: /blog/*/*/*/feed/$

    Disallow: /blog/*/*/*/feed/rss/$

    Disallow: /blog/*/*/*/trackback/$

    User-agent: MSIECrawler

    Disallow: /

    User-agent: WebCopier

    Disallow: /

    User-agent: HTTrack

    Disallow: /

    User-agent: Microsoft.URL.Control

    Disallow: /

    User-agent: libwww

    Disallow: /

    User-agent: noxtrumbot

    Crawl-delay: 50

    User-agent: msnbot

    Crawl-delay: 30

    User-agent: Slurp

    Crawl-delay: 10

  15. Me contesto a mi mismo, creo que se necesita otro robots.txt para el subdominio y por lo tanto el /blog que le había colocado no es es correcto, es tal como lo has puesto tu y colocandolo en la raiz del subdominio.

    Un saludo

  16. Pingback: wp-popular.com » Blog Archive » Robots.txt Perfecto para Wordpress | Ayuda WordPress

  17. Hola, en tu robots incluyes esta linea
    Disallow: /?s=
    queria saber exactamente cual es su funcion, ya que he visto otros robots que en vez de S tiene una P
    Disallow: /?p=
    supongo que es para evitar contenido duplicado cuando usamos permalinks personalizados, ya que tenia esa linea con la S y supongo que es la razon por la que google actualmenbte me lanza un error de redireccionamiento en mi blog justo para el ?p=4 bueno yo supongo que es por eso, talvez tengas una mejor explicacion, y otra pregunta, tambien veo que algunos incluyen esto
    Disallow: /xmlrpc
    podrias explicarme para que sirve esta linea, bueno gracias de antemano, espero me ayudes.

    1. Creo que la diferencia entre la p y la s es el tipo de parámetro de búsqueda que usa el site, para saber cual es el tuyo sólo tienes que hacer una búsqueda y verlo en la URL con el formato que ves en el .txt, es decir, /?s= o /?p= y a continuación verás las palabras que hayas usado en tu consulta de búsqueda. De esta manera puedes averiguar cual es la opción para tu site. por lo que comentas parece que tu opción sería con la P.

  18. Pingback: Cómo mejorar el posicionamiento (seo) en Wordpress | DosisWeb

  19. Pingback: Humans.txt | Ayuda WordPress

  20. Pingback: Cómo mejorar el posicionamiento (seo) en Wordpress

  21. Aquí tenéis otro archivo robots.txtFuente: http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress/# Archivo robots.txt para WordPress
    # http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress
    #
    # Archivo sitemap.xml de nuestro blog
    Sitemap:
    # Robots.txt
    User-agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    # Desindexar entradas duplicadas, comentarios y trackbacks
    Allow: /feed/$
    Disallow: /feed
    Disallow: /comments/feed
    Disallow: /*/feed/$
    Disallow: /*/feed/rss/$
    Disallow: /*/trackback/$
    Disallow: /*/*/feed/$
    Disallow: /*/*/feed/rss/$
    Disallow: /*/*/trackback/$
    Disallow: /*/*/*/feed/$
    Disallow: /*/*/*/feed/rss/$
    Disallow: /*/*/*/trackback/$
    Disallow: /?s=
    Disallow: /search

    User-agent: Googlebot
    # No indexar archivos terminados con estas extensiones
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?*
    Disallow: /*.txt$

    # Permitir bot de Adsense. Opcional, pero recomedable si lo usamos.
    User-agent: Mediapartners-Google*
    Disallow:
    # Permitir a Google Imagenes indexar nuestras imagenes. Opcional.
    User-agent: Googlebot-Image
    Disallow:
    # Limitar los bots de Yahoo, MSN y Noxtrum. Opcional.
    User-agent: noxtrumbot
    Crawl-delay: 50
    User-agent: msnbot
    Crawl-delay: 30
    User-agent: Slurp
    Crawl-delay: 10

  22. Cristian Rodriguez G

    Hola chicos quisiera saber si antes del 1 » / » tengo que poner algun escrito, me refiero a todo el contenido robots txt:

    # robots.txt para tu blog en WordPress.## Usar bajo propia responsabilidad, que nos conocemos }:)# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml## Primero el contenido adjunto.User-Agent: *Allow: /wp-content/uploads/Disallow: /wp-content/plugins/Disallow: /wp-content/themes/Disallow: /wp-includes/Disallow: /wp-admin/# También podemos desindexar todo lo que empiece# por wp-. Es lo mismo que los Disallow de arriba pero# incluye cosas como wp-rss.phpDisallow: /wp-## Sitemap permitido, búsquedas no.#Sitemap: http://tu-web/sitemap.xmlDisallow: /?s=Disallow: /search## Permitimos el feed general para Google Blogsearch.## Impedimos que permalink/feed/ sea indexado ya que el# feed con los comentarios suele posicionarse en lugar de# la entrada y desorienta a los usuarios.## Lo mismo con URLs terminadas en /trackback/ que sólo# sirven como Trackback URI (y son contenido duplicado).#Allow: /feed/$Disallow: /feedDisallow: /comments/feedDisallow: /*/feed/$Disallow: /*/feed/rss/$Disallow: /*/trackback/$Disallow: /*/*/feed/$Disallow: /*/*/feed/rss/$Disallow: /*/*/trackback/$Disallow: /*/*/*/feed/$Disallow: /*/*/*/feed/rss/$Disallow: /*/*/*/trackback/$## A partir de aquí es opcional pero recomendado.## Lista de bots que suelen respetar el robots.txt pero rara# vez hacen un buen uso del sitio y abusan bastante…# Añadir al gusto del consumidor…User-agent: MSIECrawlerDisallow: /User-agent: WebCopierDisallow: /User-agent: HTTrackDisallow: /User-agent: Microsoft.URL.ControlDisallow: /User-agent: libwwwDisallow: /## Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen# idas de pinza, toca decirles que reduzcan la marcha.# El valor es en segundos y podéis dejarlo bajo e ir# subiendo hasta el punto óptimo.#User-agent: noxtrumbotCrawl-delay: 50User-agent: msnbotCrawl-delay: 30User-agent: SlurpCrawl-delay: 10 

  23. Estoy viendo que uno de los posibles problemas en las capturas de Google Web Preview está en la configuración del fichero robots.txt, porque no aparecen las imágenes del theme (CSS) en la captura de previsualización de Google.

    Por este motivo, pienso que debajo de:
    Allow: /wp-content/uploads/

    Se podría añadir:
    Allow: /wp-content/themes/nombredemitheme/images/

    (Si es que hay imágenes de los estilos del theme en esta carpeta, o en la carpeta que corresponda).

    Lo raro es que hay veces que sí hace una captura correcta, y otras no. En parte pienso que podría ser por la configuración de W3 Total Cache. Pero esto que comento del fichero robots.txt me da mucho que pensar.

    ¿Hago bien si añado la línea que propongo, por si las moscas?

  24. Una pregunta Javier: ¿No podría ser que el "Disallow: /*.php$" impida que se indexen bien las páginas en php? Bueno en realidad los ficheros de WP están dentro del theme, pero como no entiendo mucho he optado por preguntártelo.

    Gracias de antemano.

  25. hola
    buscando un robots para wordpress he visto este post y me gustaría saber si todavía
    esta actualizado o ahí que hacerle algún cambio.

    gracias

  26. Aitana garcia uriarte

    Una pregunta al hilo del artículo.

    Tengo una página que genera PDF del mismo contenido que la página para que pueda ser descargado.

    Me gustaría usar el robots.txt para que no las indexe.

    Ahora mismo las URL de estos descargables son:

    wp-content/themes/prestige/pdf.php?(fichas de productos)

    Me podríais ayudar a usar el robots para que no me indexe todos estos PDF’s?

    Muchas gracias!

    1. Hola con este Robots.txt no tendrás problema.

      Cosecha propia 😉

      -Para ir al grano, primero bloqueamos todos y luego damos paso a lo que nos interesa.
      —————————————————————————————————————–
      User-agent: *
      Disallow: /
      User-agent: Googlebot
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /
      User-agent: Googlebot-Image
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /
      User-agent: Googlebot-Mobile
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /
      User-agent: Bingbot
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /
      User-agent: MSNBot
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /
      User-agent: Slurp
      Disallow: /wp-admin/
      Disallow: /xmlrpc.php
      Allow: /

      ———————————————————————————————
      Si usas Adsense añades el bot de Mediapartners y el de Ads y listos!

      Espero que te ayude.

  27. Pingback: Evita que los buscadores indexen tu web mientras la creas | Ayuda WordPress

  28. Héctor Eduardo Achang García

    Ya configuré mi robots.txt pero me sigue saliendo en la descripción que no se puede mostrar porque el archivo robots.txt lo impide que puedo hacer

  29. Hola Fernando! Felicidades por el blog! es de gran ayuda!!
    Te quería hacer una pregunta en mi web tengo puesto este robots.txt:

    User-agent: *
    Sitemap:

    Disallow: /wp-login
    Disallow: /wp-admin
    Disallow: //wp-includes/
    Disallow: /*/feed/
    Disallow: /*/trackback/
    Disallow: /*/attachment/
    Disallow: /author/
    Disallow: /*/page/
    Disallow: /*/feed/
    Disallow: /tag/*/page/
    Disallow: /tag/*/feed/
    Disallow: /page/
    Disallow: /xmlrpc.php
    Disallow: /*?s=
    Disallow: /*/*/*/feed.xml
    Disallow: /?attachment_id*

    pero en mi sitemap veo que se indexan muchas cosas que no tendrían q salir y me a surgido la duda si estaba bien o no.
    Si me puedes ayudar te lo agradecería mucho.
    Mil gracias,

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

 

Ir arriba Ir al contenido