En SigT.net nos ayudan a mejorar nuestro espacio de comunicación. En esta ocasión han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores (¡pecado mortal para Google!).
Por descontado que lo he aplicado tal cual pues las reglas que proponen son del todo acertadas.
Lo tienes aquí mismo y, por supuesto, no dejes de visita el blog de Armonth, un imprescindible.
# # robots.txt para tu blog en WordPress. # # Usar bajo propia responsabilidad, que nos conocemos }:) # http://sigt.net/archivo/robotstxt-para-wordpress.xhtml # # Primero el contenido adjunto. User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/ # También podemos desindexar todo lo que empiece # por wp-. Es lo mismo que los Disallow de arriba pero # incluye cosas como wp-rss.php Disallow: /wp- # # Sitemap permitido, búsquedas no. # Sitemap: http://tu-web/sitemap.xml Disallow: /?s= Disallow: /search # # Permitimos el feed general para Google Blogsearch. # # Impedimos que permalink/feed/ sea indexado ya que el # feed con los comentarios suele posicionarse en lugar de # la entrada y desorienta a los usuarios. # # Lo mismo con URLs terminadas en /trackback/ que sólo # sirven como Trackback URI (y son contenido duplicado). # Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # # A partir de aquí es opcional pero recomendado. # # Lista de bots que suelen respetar el robots.txt pero rara # vez hacen un buen uso del sitio y abusan bastante… # Añadir al gusto del consumidor… User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / # # Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen # idas de pinza, toca decirles que reduzcan la marcha. # El valor es en segundos y podéis dejarlo bajo e ir # subiendo hasta el punto óptimo. # User-agent: noxtrumbot Crawl-delay: 50 User-agent: msnbot Crawl-delay: 30 User-agent: Slurp Crawl-delay: 10
Vía | SigT.net
¿Te gustó este artículo? ¡Ni te imaginas lo que te estás perdiendo en YouTube!
Tengo dudas sobre la forma correcta de bloquear las categorias. Es que solo quiere que se indexen los post y las paginas, pero no las categorias.
Gracias
Hola me gustaría saber donde tengo que poner este código, no se hace una carpeta robots.text y donde?
muchas gracias de ante mano.
Hola PEDRO, tienes que crear un archivo de texto y copiar el codigo en el, luego tienes que cargarlo en el directorio raiz de tu sitio.
saludos!
Hola,
acabo de estrenar una web gestionada con Wordpress, y he creado un archivo robots.txt a partir de esta recomendación tuya y unas mínimas modificaciones mías. El caso es que Google ha empezado a indexar algunas páginas de la web, y se ha lanzado en tromba a hacerlo con todas las que tienen la estructura permalink.pdf, justamente las que no me interesaba que cogiera… No lo entiendo, porque probando el robots.txt con el propio Google Webmaster Tools me bloquea perfectamente ese tipo de url. ¿Cual puede ser el problema? De verdad que no lo entiendo…
Gracias.
Cual es el directorio raiz. Yo lo he puesto, mediante FTP nada mas abrir el wordpress llamado prometheo. Es ahí?.
@javier: el raiz es donde veas el fichero wp-config.php
OK gracias lo he puesto en el lugar que habia que ponerlo, no si a veces…..
Como hago para bloquear los paginas de comentarios que genera wordpress 2.7?
Saludos!
acabo de verificar en http://tool.motoricerca.info/robots-checker.phtml y básicamente me lo pinto todo de rojo!!! (errores), podrías verificarlo Fer?. Gracias!
emip3, depende de que tipo de errores son importantes o no. Mejor que usar herramientas de terceros usa las de Google (Webmaster tools) a ver que te cuenta. A mi, por ejemplo, esa herramienta me da como errores pijadas como que una línea debe estar separada de otra con un intro de mas y cosas así.
ok Fer, WB Tools me dice solo tres cositas, a ver vos que sos el que sabe: me dice:
Crawl-delay: 50 Norma ignorada por Googlebot
Crawl-delay: 30 Norma ignorada por Googlebot
Crawl-delay: 10 Norma ignorada por Googlebot
que son las líneas que están debajo de:
User-agent: noxtrumbot
User-agent: msnbot
User-agent: Slurp
…respectivamente…
try my version without warnings, mi versión sin errores de advertencia.
blog.unab.cl/robots.txt
Hola!!
Veo que este artículo ya tiene unos años, ¿sigue siendo válido el robots.txt?, ¿hay algo más reciente?
Saludos!!
Es perfectamente válido 😉
Y a día de hoy también es valido? Gracias por los consejos!
Hola buenas,
Mirando un poco de información para optimizar el archivo robots.txt de mi blog de WP, llegué a éste post y me pareció un apunte muy interesante y bueno.
A veces los buscadores se ponen a indexar lo que no te interesa, y lo que te interesa tarda mogollón, es la ley de murphy, pero con éste archivo robots.txt, se puede paliar un poco la ley de Murphy.
muchas gracias y saludos 😉
Muchisimas gracias voy a usarlo! saludos
Buen articulo, me lo guardo porque es muy interesante pero una pregunta…
si tengo el blog alojado en un subdominio…ejemplo http://www.midominio.com/blog como funciona el robots.txt seria algo así?
Disallow: /blog/wp-
Disallow: /blog/?s=
Disallow: /blog/search
Allow: /blog/feed/$
Disallow: /blog/feed
Disallow: /blog/comments/feed
Disallow: /blog/*/feed/$
Disallow: /blog/*/feed/rss/$
Disallow: /blog/*/trackback/$
Disallow: /blog/*/*/feed/$
Disallow: /blog/*/*/feed/rss/$
Disallow: /blog/*/*/trackback/$
Disallow: /blog/*/*/*/feed/$
Disallow: /blog/*/*/*/feed/rss/$
Disallow: /blog/*/*/*/trackback/$
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
Me contesto a mi mismo, creo que se necesita otro robots.txt para el subdominio y por lo tanto el /blog que le había colocado no es es correcto, es tal como lo has puesto tu y colocandolo en la raiz del subdominio.
Un saludo
Hola, en tu robots incluyes esta linea
Disallow: /?s=
queria saber exactamente cual es su funcion, ya que he visto otros robots que en vez de S tiene una P
Disallow: /?p=
supongo que es para evitar contenido duplicado cuando usamos permalinks personalizados, ya que tenia esa linea con la S y supongo que es la razon por la que google actualmenbte me lanza un error de redireccionamiento en mi blog justo para el ?p=4 bueno yo supongo que es por eso, talvez tengas una mejor explicacion, y otra pregunta, tambien veo que algunos incluyen esto
Disallow: /xmlrpc
podrias explicarme para que sirve esta linea, bueno gracias de antemano, espero me ayudes.
Creo que la diferencia entre la p y la s es el tipo de parámetro de búsqueda que usa el site, para saber cual es el tuyo sólo tienes que hacer una búsqueda y verlo en la URL con el formato que ves en el .txt, es decir, /?s= o /?p= y a continuación verás las palabras que hayas usado en tu consulta de búsqueda. De esta manera puedes averiguar cual es la opción para tu site. por lo que comentas parece que tu opción sería con la P.
Aquí tenéis otro archivo robots.txtFuente: http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress/# Archivo robots.txt para WordPress
# http://www.teusoft.com/el-archivo-robotstxt-perfecto-para-wordpress
#
# Archivo sitemap.xml de nuestro blog
Sitemap:
# Robots.txt
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
# Desindexar entradas duplicadas, comentarios y trackbacks
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /?s=
Disallow: /search
User-agent: Googlebot
# No indexar archivos terminados con estas extensiones
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?*
Disallow: /*.txt$
# Permitir bot de Adsense. Opcional, pero recomedable si lo usamos.
User-agent: Mediapartners-Google*
Disallow:
# Permitir a Google Imagenes indexar nuestras imagenes. Opcional.
User-agent: Googlebot-Image
Disallow:
# Limitar los bots de Yahoo, MSN y Noxtrum. Opcional.
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
esta configuración te ha funcionado bien? has tenido diferencia desde que lo pusiste?
Hola chicos quisiera saber si antes del 1 » / » tengo que poner algun escrito, me refiero a todo el contenido robots txt:
# robots.txt para tu blog en WordPress.## Usar bajo propia responsabilidad, que nos conocemos }:)# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml## Primero el contenido adjunto.User-Agent: *Allow: /wp-content/uploads/Disallow: /wp-content/plugins/Disallow: /wp-content/themes/Disallow: /wp-includes/Disallow: /wp-admin/# También podemos desindexar todo lo que empiece# por wp-. Es lo mismo que los Disallow de arriba pero# incluye cosas como wp-rss.phpDisallow: /wp-## Sitemap permitido, búsquedas no.#Sitemap: http://tu-web/sitemap.xmlDisallow: /?s=Disallow: /search## Permitimos el feed general para Google Blogsearch.## Impedimos que permalink/feed/ sea indexado ya que el# feed con los comentarios suele posicionarse en lugar de# la entrada y desorienta a los usuarios.## Lo mismo con URLs terminadas en /trackback/ que sólo# sirven como Trackback URI (y son contenido duplicado).#Allow: /feed/$Disallow: /feedDisallow: /comments/feedDisallow: /*/feed/$Disallow: /*/feed/rss/$Disallow: /*/trackback/$Disallow: /*/*/feed/$Disallow: /*/*/feed/rss/$Disallow: /*/*/trackback/$Disallow: /*/*/*/feed/$Disallow: /*/*/*/feed/rss/$Disallow: /*/*/*/trackback/$## A partir de aquí es opcional pero recomendado.## Lista de bots que suelen respetar el robots.txt pero rara# vez hacen un buen uso del sitio y abusan bastante…# Añadir al gusto del consumidor…User-agent: MSIECrawlerDisallow: /User-agent: WebCopierDisallow: /User-agent: HTTrackDisallow: /User-agent: Microsoft.URL.ControlDisallow: /User-agent: libwwwDisallow: /## Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen# idas de pinza, toca decirles que reduzcan la marcha.# El valor es en segundos y podéis dejarlo bajo e ir# subiendo hasta el punto óptimo.#User-agent: noxtrumbotCrawl-delay: 50User-agent: msnbotCrawl-delay: 30User-agent: SlurpCrawl-delay: 10
Estoy viendo que uno de los posibles problemas en las capturas de Google Web Preview está en la configuración del fichero robots.txt, porque no aparecen las imágenes del theme (CSS) en la captura de previsualización de Google.
Por este motivo, pienso que debajo de:
Allow: /wp-content/uploads/
Se podría añadir:
Allow: /wp-content/themes/nombredemitheme/images/
(Si es que hay imágenes de los estilos del theme en esta carpeta, o en la carpeta que corresponda).
Lo raro es que hay veces que sí hace una captura correcta, y otras no. En parte pienso que podría ser por la configuración de W3 Total Cache. Pero esto que comento del fichero robots.txt me da mucho que pensar.
¿Hago bien si añado la línea que propongo, por si las moscas?
Una pregunta Javier: ¿No podría ser que el "Disallow: /*.php$" impida que se indexen bien las páginas en php? Bueno en realidad los ficheros de WP están dentro del theme, pero como no entiendo mucho he optado por preguntártelo.
Gracias de antemano.
hola
buscando un robots para wordpress he visto este post y me gustaría saber si todavía
esta actualizado o ahí que hacerle algún cambio.
gracias
En principio no
muy bien,si es asi lo voy a subir a la web tal cual
gracias
el validador de robots.txt indica que estos codigos contiene algunos errores!!!
Una pregunta al hilo del artículo.
Tengo una página que genera PDF del mismo contenido que la página para que pueda ser descargado.
Me gustaría usar el robots.txt para que no las indexe.
Ahora mismo las URL de estos descargables son:
wp-content/themes/prestige/pdf.php?(fichas de productos)
Me podríais ayudar a usar el robots para que no me indexe todos estos PDF’s?
Muchas gracias!
Me ha venido el mismo aviso,¿Que puedo hacer para solucionarlo:El robot de Google no puede acceder a los archivos CSS y JS de WordPress
Hola con este Robots.txt no tendrás problema.
Cosecha propia 😉
-Para ir al grano, primero bloqueamos todos y luego damos paso a lo que nos interesa.
—————————————————————————————————————–
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
User-agent: Googlebot-Image
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
User-agent: Googlebot-Mobile
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
User-agent: Bingbot
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
User-agent: MSNBot
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
User-agent: Slurp
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Allow: /
———————————————————————————————
Si usas Adsense añades el bot de Mediapartners y el de Ads y listos!
Espero que te ayude.
Ya configuré mi robots.txt pero me sigue saliendo en la descripción que no se puede mostrar porque el archivo robots.txt lo impide que puedo hacer
Hola Fernando! Felicidades por el blog! es de gran ayuda!!
Te quería hacer una pregunta en mi web tengo puesto este robots.txt:
User-agent: *
Sitemap:
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: /*/page/
Disallow: /*/feed/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
pero en mi sitemap veo que se indexan muchas cosas que no tendrían q salir y me a surgido la duda si estaba bien o no.
Si me puedes ayudar te lo agradecería mucho.
Mil gracias,