Oferta SiteGround Black Friday

Cómo evitar que los plugins o bots de ChatGPT rastreen el contenido de tu web

chatgpt

Que ChatGPT es la aplicación del momento a nadie se le escapa. Cada vez salen mas aplicaciones, servicios e incluso plugins con los que hacer uso de la inteligencia artificial de OpenAI para generar contenidos, crear webs y todo tipo de utilidades.

Ahora bien, ¿de dónde sacan estos plugins y utilidades la información que facilitan a los usuarios de ChatGPT?, pues del contenido de miles de webs, a los que posteriormente dan forma conversacional, para atender las consultas realizadas.

El problema de la IA y la fiabilidad de la información

Esta herramienta tiene, en lo que se refiere al SEO, y a pesar del enamoramiento de algunos, grandes inconvenientes, que pueden llegar a convertirse en un grave problema.

Me refiero a que los resultados que da ChatGPT nunca reconocen las fuentes, y si ya es malo que la Wikipedia alimente su base de datos desde las URLs originales del contenido y les ponga un enlace nofollow, peor es aún no reconocer las fuentes.

Esto termina restando autoridad a las fuentes originales, haciéndolas irrelevantes para el usuario, y de paso restándoles todo el tráfico de buscadores que merecerían por haber generado el contenido original.

Para el usuario, si se acostumbra a las respuestas conversacionales de ChatGPT, llegará un punto en que este podría llegar a ser su único punto de información, sesgando la información, limitando los puntos de vista, haciendo que cada vez estemos menos y peor informados, al tiempo que hacemos desaparecer las verdaderas fuentes de información y opinión.

Y no es una guerra fácil, pues ya hay mucha gente queriendo aprovechar las capacidades de generación de contenidos automática para crear webs, artículos de todo tipo, quizás libros a no mucho tardar, lo que contribuye, cada vez más, a generar contenido basura, repetitivo, sin valor, sin contraste, sin opinión, en la red.

Actualmente, para cada búsqueda, podemos tener varios resultados, incluso con opiniones diferentes y discrepantes, lo que contribuye a que el usuario se forme su propio criterio, a partir del contraste de informaciones, pero ¿qué pasará si los usuarios mayoritariamente utilizan herramientas como ChatGPT en las que no hay contraste, ni divergencias, pero sí hay sesgo?

Porque no te engañes, la información que ofrecen las IA como ChatGPT no es aséptica, puede ser como mucho anodina, sin riesgos, pero nunca te retará a contrastar distintas fuentes, a las que nunca hace referencia.

Pregunté a la misma IA sobre esto y me confirmó que hay «personas» que alimentan sus bases de datos de la información, pero sin hacer relación a las fuentes de la misma.

Esta respuesta, que mostró la IA ante mi pregunta directa sobre las fuentes de información, debería acompañar cada respuesta que ofrezca la IA, para que el usuario siempre sea consciente de algunos hechos:

  1. La IA solo muestra la información que «ciertos» humanos le han facilitado, y no sabemos quiénes son ni qué sesgo tienen.
  2. La IA no muestra información fiable, ni siquiera real en ocasiones, solo información localizada en su base de conocimiento.
  3. La IA de ChatGPT, aunque nos la vendan como IA fuerte, es IA débil, sin capacidad real de aprendizaje independiente. Ofrece un entorno conversacional que imita el humano pero hasta sus respuestas más «sinceras» no dejan de estar programadas en fondo y forma.

Cómo evitar que la IA rastree tu contenido

Visto todo lo anterior, que me parece que es algo que se está debatiendo demasiado poco, o menos de lo que se debería, si no quieres que tu contenido original lo utilicen las aplicaciones, servicios y bots que utilizan la IA de ChatGPT, en la misma documentación de OpenAI indican el modo de evitarlo.

Es algo tan sencillo como indicar en tu archivo robots.txt que no se permita el rastreo al agente de usuario ChatGPT, que viene a ser añadir esta línea a tu archivo robots.txt:

User-agent: ChatGPT-User
Disallow: /
User-agent: OpenAI
Disallow: /
User-agent: ChatGPT
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: CCBot
Disallow: /

Si, por propia decisión, quieres dejar a los bots de la IA acceder a ciertas carpetas o directorios de tu web, la directriz podría ser algo así:

User-agent: ChatGPT-User
Disallow: 
Allow: /category/noticias/
Allow: /tag/spain/

Por supuesto, estas directrices de no rastreo, aunque estén indicadas en la misma documentación de la IA, cualquier desarrollador puede decidir saltárselas y no hacerles caso, así que, en última instancia, nada puede impedir que las múltiples instancias de ChatGPT que ya hay, y no digamos las que habrá, hagan uso de tu contenido original para robarte el protagonismo y autoridad que como fuente del mismo deberías tener.

Otra posibilidad sería crear una regla en el archivo .htaccess para impedir que la IA acceda a tu web

# Bloquear ChatGPT y OpenAI
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ChatGPT [OR]
RewriteCond %{HTTP_USER_AGENT} ChatGPT-User [OR]
RewriteCond %{HTTP_USER_AGENT} OpenAI
RewriteRule .* - [F]

O lo mismo para el archivo de configuración de NGINX:

# Bloquear ChatGPT y OpenAI
if ($http_user_agent ~* (ChatGPT|ChatGPT-User|OpenAI)) {
return 403;
}

De nuevo, es posible que haya bots y aplicaciones que se salten estas reglas, pero, al menos, con estos códigos, estarás de algún modo mostrando tu disconformidad con el uso indiscriminado, irrespetuoso, e incluso ilegal, que ChatGPT hace de la información que obtiene de las fuentes originales de los contenidos que comparte en su «conversación».

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en los emoticonos para valorarlo!

Promedio de puntuación 4.7 / 5. Total de votos: 24

Hasta ahora ¡no hay votos!. Sé el primero en valorar este contenido.

Ya que has encontrado útil este contenido...

¡Sígueme en las redes sociales!

¿Te gustó este artículo? ¡Ni te imaginas lo que te estás perdiendo en YouTube!

Sobre el autor

3 comentarios en “Cómo evitar que los plugins o bots de ChatGPT rastreen el contenido de tu web”

  1. Gracias Fernando por este excelente y pertinente artículo

    Creo que la IA en general y su uso indiscriminado para generar contenidos está volviendo la web un basurero. Las «ansias» de muchos por alcanzar los primeros lugares en las SERP mediante el marketing de contenidos, por el consecuente beneficio económico que eso conlleva, los impulsa a crear más y más contenido cada vez menos sustantivo, con poco significado e incomprensible en muchos casos, pero con lo necesario para que los motores los ubiquen en el top 10. Con la llegada de la IA estamos comenzando a leer cosas que hasta irritan por el tiempo que pierdes con algo que en principio parecía ser exactamente lo que buscabas, pero después de leerlo te das cuentas que es un manojo de texto incoherente que no te dice ni resuelve nada… ah! pero eso si, el creador de ese contenido logró llevarte hasta su web y tenerte un buen rato allí para mejorar su tasa de rebote y CTR medio y mostrarte sus banners publicitarios. Si la dirección que lleva esto no se «endereza», en poco tiempo se volverán inservibles los motores de búsqueda como medios para encontrar información relevante.

    Saludos
    Luis De Sousa

  2. Yo tengo mi propia percepción de lo que podría pasar, para bien o para mal, según del lado de la cerca donde uno se encuentre. AI llegó para quedarse y a penas estamos viendo la punta del iceberg.

    Como dice Luis, en menos de 5 años los motores de búsqueda dejarán de ser la fuente más confiable para buscar información debido a la gran cantidad de contenido generado de AI. Lo peor no eso mis estimados colegas, tendremos una AI generando contenido, de su propio contenido generado anteriormente por la misma AI.

    Ya veremos demandas y escándalos por el mal uso de la herramienta, pero al final hay que recordar que como todo negocio que se crea es necesario que sea rentable y la única forma de que eso sea posible, es que se use y si no se usa porque no es confiable se cae todo.

    Esto supongo que los creados de esta nueva era de AI –que insisto, llegó para quedarse, no desaparecerá– ya lo saben y se tomará en cuenta y como toda evolución de la tecnología se irá depurando y mejorando con el paso del tiempo, veremos cosas realmente asombrosas como cuando veíamos las caricaturas de los Super-Sónicos de los años 60 hablando con una pantalla de TV. 60 años después hasta su última emisión en el 87, vemos que casi todo lo veíamos inverosímil, ahora es una realidad para nosotros bastante normal.

    Entonces solo tenemos que situarnos en el mismo contexto y preguntarnos que es lo que vemos ahora, que nos parece mentira y empezar adaptarnos o al menos encaminarnos para lo que será la nueva normalidad del futuro.

    AI va mucho más allá del manejo y uso de la información específicamente de la parte web, contenidos, autoría, fiabilidad, etc. El principal objetivo de toda AI es bastante simple y complejo a la vez: ahorrar tiempo.

    El tiempo es la principal ecuación de la fórmula, así que lo tendremos que hacer es empezar a generar nuestra propia ecuación, sea cual sea el negocio que hagamos.

    Bueno es una opinión personal y como siempre Fernando, gracias por tus aportes tecnológicos que siempre ayudan a visualizar otros caminos.

    Un Abrazo,

  3. Respetuoso (por decir lo minimo) de parte de los creadores de las herramientas de IA, seria colocar en su documentacion tambien la manera de forzar a que en la creacion de contenidos aparezca link a los sitios de los q se sirvio. Si por ejemplo toma de mi sitio algo con q nutrir su texto de salida, q tambien pueda colocar yo en robots o en htacces o como sea, la orden de q x lo menos de el credito con link respectivo a mi como fuente. No se, digo yo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información base sobre privacidad:
- Responsable: Fernando Tellado ([email protected])
- Fin del tratamiento: Moderación de comentarios para evitar spam
- Legitimación: Tu consentimiento
- Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal
- Derechos: Acceso, rectificación, portabilidad, olvido

 

Scroll al inicio