Robots.txt perfecto para WordPress

Por Fernando Tellado / 20-03-2016 / Avanzado, robots.txt / 2 minutos de lectura

En SigT.net nos ayudan a mejorar nuestro espacio de comunicación. En esta ocasión han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores (¡pecado mortal para Google!).

Por descontado que lo he aplicado tal cual pues las reglas que proponen son del todo acertadas.

Lo tienes aquí mismo y, por supuesto, no dejes de visita el blog de Armonth, un imprescindible.

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Vía | SigT.net

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en las estrellas para valorarlo!

Promedio de puntuación 4.8 / 5. Total de votos: 17

¡Todavía no hay votos! Sé el primero en valorar este contenido.

Puede que también te interese…

¿Te gustó este artículo? ¡Ni te imaginas lo que te estás perdiendo en YouTube!

Sobre el autor

Fernando Tellado

Apasionado de WordPress, profesor, consultor y ponente. Maquero cansino, padre de tres hijos y dos perritas. Vasco de nacimiento, español de corazón y ciudadano de donde me quieran. Mi último libro es WordPress - Web gratis para todos. Mi blog personal es este, donde hace años ofrezco mis visiones acerca de la Web. Sígueme en Twitter

39 comentarios en “Robots.txt perfecto para WordPress”

Sabogal
11-04-2008 a las 01:13

Tengo dudas sobre la forma correcta de bloquear las categorias. Es que solo quiere que se indexen los post y las paginas, pero no las categorias.

Gracias
Pedro
26-05-2008 a las 22:38

Hola me gustaría saber donde tengo que poner este código, no se hace una carpeta robots.text y donde?

muchas gracias de ante mano.
Pablou
26-06-2008 a las 19:39

Hola PEDRO, tienes que crear un archivo de texto y copiar el codigo en el, luego tienes que cargarlo en el directorio raiz de tu sitio.

saludos!
Pere
06-09-2008 a las 11:31

Hola,
acabo de estrenar una web gestionada con Wordpress, y he creado un archivo robots.txt a partir de esta recomendación tuya y unas mínimas modificaciones mías. El caso es que Google ha empezado a indexar algunas páginas de la web, y se ha lanzado en tromba a hacerlo con todas las que tienen la estructura permalink.pdf, justamente las que no me interesaba que cogiera… No lo entiendo, porque probando el robots.txt con el propio Google Webmaster Tools me bloquea perfectamente ese tipo de url. ¿Cual puede ser el problema? De verdad que no lo entiendo…
Gracias.
javier
06-10-2008 a las 21:33

Cual es el directorio raiz. Yo lo he puesto, mediante FTP nada mas abrir el wordpress llamado prometheo. Es ahí?.
Fernando Tellado
06-10-2008 a las 22:18

@javier: el raiz es donde veas el fichero wp-config.php
javier
06-10-2008 a las 22:27

OK gracias lo he puesto en el lugar que habia que ponerlo, no si a veces…..
Sabogal
21-12-2008 a las 15:58

Como hago para bloquear los paginas de comentarios que genera wordpress 2.7?

Saludos!
emip3
17-02-2009 a las 05:13

acabo de verificar en http://tool.motoricerca.info/robots-checker.phtml y básicamente me lo pinto todo de rojo!!! (errores), podrías verificarlo Fer?. Gracias!
1. Fernando Tellado
  17-02-2009 a las 11:36
  
  emip3, depende de que tipo de errores son importantes o no. Mejor que usar herramientas de terceros usa las de Google (Webmaster tools) a ver que te cuenta. A mi, por ejemplo, esa herramienta me da como errores pijadas como que una línea debe estar separada de otra con un intro de mas y cosas así.
emip3
17-02-2009 a las 13:58

ok Fer, WB Tools me dice solo tres cositas, a ver vos que sos el que sabe: me dice:

Crawl-delay: 50 Norma ignorada por Googlebot

Crawl-delay: 30 Norma ignorada por Googlebot

Crawl-delay: 10 Norma ignorada por Googlebot

que son las líneas que están debajo de:

User-agent: noxtrumbot

User-agent: msnbot

User-agent: Slurp

…respectivamente…
Carlos
26-06-2009 a las 04:45

try my version without warnings, mi versión sin errores de advertencia.

blog.unab.cl/robots.txt
1. Luis Cruz
  28-01-2025 a las 17:31
  
  Its very impressive mai pana
  1. Fernando Tellado
    28-01-2025 a las 18:46
    
    gracias bro
Pili_pilili
05-03-2010 a las 13:38

Hola!!

Veo que este artículo ya tiene unos años, ¿sigue siendo válido el robots.txt?, ¿hay algo más reciente?

Saludos!!
1. Fernando Tellado
  06-03-2010 a las 03:38
  
  Es perfectamente válido 😉
  1. alex
    06-10-2013 a las 19:55
    
    Y a día de hoy también es valido? Gracias por los consejos!
Josep
19-04-2010 a las 18:29

Hola buenas,

Mirando un poco de información para optimizar el archivo robots.txt de mi blog de WP, llegué a éste post y me pareció un apunte muy interesante y bueno.

A veces los buscadores se ponen a indexar lo que no te interesa, y lo que te interesa tarda mogollón, es la ley de murphy, pero con éste archivo robots.txt, se puede paliar un poco la ley de Murphy.

muchas gracias y saludos 😉
Quizzer
10-08-2010 a las 12:58

Muchisimas gracias voy a usarlo! saludos
Voodoo
18-10-2010 a las 19:32

Buen articulo, me lo guardo porque es muy interesante pero una pregunta…

si tengo el blog alojado en un subdominio…ejemplo http://www.midominio.com/blog como funciona el robots.txt seria algo así?

Disallow: /blog/wp-

Disallow: /blog/?s=

Disallow: /blog/search

Allow: /blog/feed/$

Disallow: /blog/feed

Disallow: /blog/comments/feed

Disallow: /blog/*/feed/$

Disallow: /blog/*/feed/rss/$

Disallow: /blog/*/trackback/$

Disallow: /blog/*/*/feed/$

Disallow: /blog/*/*/feed/rss/$

Disallow: /blog/*/*/trackback/$

Disallow: /blog/*/*/*/feed/$

Disallow: /blog/*/*/*/feed/rss/$

Disallow: /blog/*/*/*/trackback/$

User-agent: MSIECrawler

Disallow: /

User-agent: WebCopier

Disallow: /

User-agent: HTTrack

Disallow: /

User-agent: Microsoft.URL.Control

Disallow: /

User-agent: libwww

Disallow: /

User-agent: noxtrumbot

Crawl-delay: 50

User-agent: msnbot

Crawl-delay: 30

User-agent: Slurp

Crawl-delay: 10
Voodoo
19-10-2010 a las 00:35

Me contesto a mi mismo, creo que se necesita otro robots.txt para el subdominio y por lo tanto el /blog que le había colocado no es es correcto, es tal como lo has puesto tu y colocandolo en la raiz del subdominio.

Un saludo
Ronalds
09-05-2011 a las 01:05

Hola, en tu robots incluyes esta linea
Disallow: /?s=
queria saber exactamente cual es su funcion, ya que he visto otros robots que en vez de S tiene una P
Disallow: /?p=
supongo que es para evitar contenido duplicado cuando usamos permalinks personalizados, ya que tenia esa linea con la S y supongo que es la razon por la que google actualmenbte me lanza un error de redireccionamiento en mi blog justo para el ?p=4 bueno yo supongo que es por eso, talvez tengas una mejor explicacion, y otra pregunta, tambien veo que algunos incluyen esto
Disallow: /xmlrpc
podrias explicarme para que sirve esta linea, bueno gracias de antemano, espero me ayudes.
1. Mamel Redondo
  02-08-2012 a las 15:10
  
  Creo que la diferencia entre la p y la s es el tipo de parámetro de búsqueda que usa el site, para saber cual es el tuyo sólo tienes que hacer una búsqueda y verlo en la URL con el formato que ves en el .txt, es decir, /?s= o /?p= y a continuación verás las palabras que hayas usado en tu consulta de búsqueda. De esta manera puedes averiguar cual es la opción para tu site. por lo que comentas parece que tu opción sería con la P.
Javier
01-12-2011 a las 00:51

Aquí tenéis otro archivo robots.txtFuente: http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress/# Archivo robots.txt para WordPress
# http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress
#
# Archivo sitemap.xml de nuestro blog
Sitemap:
# Robots.txt
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
# Desindexar entradas duplicadas, comentarios y trackbacks
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /?s=
Disallow: /search

User-agent: Googlebot
# No indexar archivos terminados con estas extensiones
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?*
Disallow: /*.txt$

# Permitir bot de Adsense. Opcional, pero recomedable si lo usamos.
User-agent: Mediapartners-Google*
Disallow:
# Permitir a Google Imagenes indexar nuestras imagenes. Opcional.
User-agent: Googlebot-Image
Disallow:
# Limitar los bots de Yahoo, MSN y Noxtrum. Opcional.
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
1. Marcosfv
  13-10-2012 a las 00:57
  
  esta configuración te ha funcionado bien? has tenido diferencia desde que lo pusiste?
Cristian Rodriguez G
23-12-2011 a las 03:43

Hola chicos quisiera saber si antes del 1 » / » tengo que poner algun escrito, me refiero a todo el contenido robots txt:

# robots.txt para tu blog en WordPress.## Usar bajo propia responsabilidad, que nos conocemos }:)# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml## Primero el contenido adjunto.User-Agent: *Allow: /wp-content/uploads/Disallow: /wp-content/plugins/Disallow: /wp-content/themes/Disallow: /wp-includes/Disallow: /wp-admin/# También podemos desindexar todo lo que empiece# por wp-. Es lo mismo que los Disallow de arriba pero# incluye cosas como wp-rss.phpDisallow: /wp-## Sitemap permitido, búsquedas no.#Sitemap: http://tu-web/sitemap.xmlDisallow: /?s=Disallow: /search## Permitimos el feed general para Google Blogsearch.## Impedimos que permalink/feed/ sea indexado ya que el# feed con los comentarios suele posicionarse en lugar de# la entrada y desorienta a los usuarios.## Lo mismo con URLs terminadas en /trackback/ que sólo# sirven como Trackback URI (y son contenido duplicado).#Allow: /feed/$Disallow: /feedDisallow: /comments/feedDisallow: /*/feed/$Disallow: /*/feed/rss/$Disallow: /*/trackback/$Disallow: /*/*/feed/$Disallow: /*/*/feed/rss/$Disallow: /*/*/trackback/$Disallow: /*/*/*/feed/$Disallow: /*/*/*/feed/rss/$Disallow: /*/*/*/trackback/$## A partir de aquí es opcional pero recomendado.## Lista de bots que suelen respetar el robots.txt pero rara# vez hacen un buen uso del sitio y abusan bastante…# Añadir al gusto del consumidor…User-agent: MSIECrawlerDisallow: /User-agent: WebCopierDisallow: /User-agent: HTTrackDisallow: /User-agent: Microsoft.URL.ControlDisallow: /User-agent: libwwwDisallow: /## Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen# idas de pinza, toca decirles que reduzcan la marcha.# El valor es en segundos y podéis dejarlo bajo e ir# subiendo hasta el punto óptimo.#User-agent: noxtrumbotCrawl-delay: 50User-agent: msnbotCrawl-delay: 30User-agent: SlurpCrawl-delay: 10
Gerard B.
19-05-2012 a las 11:34

Estoy viendo que uno de los posibles problemas en las capturas de Google Web Preview está en la configuración del fichero robots.txt, porque no aparecen las imágenes del theme (CSS) en la captura de previsualización de Google.

Por este motivo, pienso que debajo de:
Allow: /wp-content/uploads/

Se podría añadir:
Allow: /wp-content/themes/nombredemitheme/images/

(Si es que hay imágenes de los estilos del theme en esta carpeta, o en la carpeta que corresponda).

Lo raro es que hay veces que sí hace una captura correcta, y otras no. En parte pienso que podría ser por la configuración de W3 Total Cache. Pero esto que comento del fichero robots.txt me da mucho que pensar.

¿Hago bien si añado la línea que propongo, por si las moscas?
Gerard B.
19-05-2012 a las 18:16

Una pregunta Javier: ¿No podría ser que el "Disallow: /*.php$" impida que se indexen bien las páginas en php? Bueno en realidad los ficheros de WP están dentro del theme, pero como no entiendo mucho he optado por preguntártelo.

Gracias de antemano.
monray
25-10-2012 a las 08:07

hola
buscando un robots para wordpress he visto este post y me gustaría saber si todavía
esta actualizado o ahí que hacerle algún cambio.

gracias
1. Fernando
  25-10-2012 a las 16:14
  
  En principio no
monray
25-10-2012 a las 20:05

muy bien,si es asi lo voy a subir a la web tal cual

gracias
acgomez
05-03-2013 a las 17:00

el validador de robots.txt indica que estos codigos contiene algunos errores!!!
Aitana garcia uriarte
10-03-2015 a las 17:32

Una pregunta al hilo del artículo.

Tengo una página que genera PDF del mismo contenido que la página para que pueda ser descargado.

Me gustaría usar el robots.txt para que no las indexe.

Ahora mismo las URL de estos descargables son:

wp-content/themes/prestige/pdf.php?(fichas de productos)

Me podríais ayudar a usar el robots para que no me indexe todos estos PDF’s?

Muchas gracias!
ANGELINA GOMEZ RUEDA
30-07-2015 a las 23:24

Me ha venido el mismo aviso,¿Que puedo hacer para solucionarlo:El robot de Google no puede acceder a los archivos CSS y JS de WordPress
1. Miquel
  31-07-2015 a las 14:52
  
  Hola con este Robots.txt no tendrás problema.
  
  Cosecha propia 😉
  
  -Para ir al grano, primero bloqueamos todos y luego damos paso a lo que nos interesa.
  —————————————————————————————————————–
  User-agent: *
  Disallow: /
  User-agent: Googlebot
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  User-agent: Googlebot-Image
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  User-agent: Googlebot-Mobile
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  User-agent: Bingbot
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  User-agent: MSNBot
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  User-agent: Slurp
  Disallow: /wp-admin/
  Disallow: /xmlrpc.php
  Allow: /
  
  ———————————————————————————————
  Si usas Adsense añades el bot de Mediapartners y el de Ads y listos!
  
  Espero que te ayude.
Héctor Eduardo Achang García
27-03-2016 a las 15:00

Ya configuré mi robots.txt pero me sigue saliendo en la descripción que no se puede mostrar porque el archivo robots.txt lo impide que puedo hacer
Jordi
10-06-2016 a las 16:05

Hola Fernando! Felicidades por el blog! es de gran ayuda!!
Te quería hacer una pregunta en mi web tengo puesto este robots.txt:

User-agent: *
Sitemap:

Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: /*/page/
Disallow: /*/feed/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*

pero en mi sitemap veo que se indexan muchas cosas que no tendrían q salir y me a surgido la duda si estaba bien o no.
Si me puedes ayudar te lo agradecería mucho.
Mil gracias,
rafael
16-10-2025 a las 14:02

Gracias por el aporte
1. Fernando Tellado
  16-10-2025 a las 14:25
  
  A mandar, y gracias por dejar un comentario 🙂

Los comentarios están cerrados.