Cómo evitar que ChatGPT y Google Bard utilicen el contenido de tu sitio web para generar respuestas
El artículo explora cómo proteger el contenido de un sitio web del «scraping» realizado por modelos de inteligencia artificial como ChatGPT y Google Bard. Los modelos de IA se entrenan con grandes volúmenes de datos web. OpenAI y Google han ofrecido pautas para evitar que los datos de un sitio se incluyan en estos modelos, a través del archivo «robots.txt». Sin embargo, no pueden garantizar al 100% la no utilización de contenido en sus datasets de entrenamiento.
Proteger nuestro contenido
— «scraping web»
Estos modelos son entrenados utilizando grandes volúmenes de datos, incluyendo contenido extraído de diferentes páginas web. Esta técnica, conocida como «scraping web».
En el contexto del crecimiento de la inteligencia artificial, se ha abierto un debate sobre el origen de los datos utilizados para entrenar a los grandes modelos de lenguaje, como GPT-4. Además, ha surgido la discusión en torno al derecho de los creadores de estas IA para utilizar dichos datos. Incluso, algunos casos han llegado a los tribunales.
Estos modelos son entrenados utilizando grandes volúmenes de datos, incluyendo contenido extraído de diferentes páginas web. Esta técnica, conocida como «scraping web», es común en investigación, periodismo y archivo digital. Sin embargo, algunos propietarios de sitios web pueden tener dudas sobre cómo se utiliza su contenido en este contexto específico.
Por esta razón, tanto OpenAI como Google han proporcionado pautas a aquellos propietarios de sitios web que prefieren evitar que el contenido de sus páginas se incluya en los extensos conjuntos de datos utilizados para entrenar estos modelos de IA.
Proteger nuestro contenido
Para asegurarte de que el contenido de tu sitio web no sea utilizado en futuros «scrapings» por parte de ChatGPT o sus competidores, existen algunos pasos sencillos que puedes seguir. Sin embargo, es importante destacar que de estas empresas ha ofrecido (ni es probable que ofrezcan en el futuro) un método para eliminar los datos en los que sus IA ya han sido entrenadas.
- Localiza el archivo «robots.txt» en la estructura de archivos de tu servidor web. Puedes acceder a este archivo a través de la interfaz web de tu proveedor de alojamiento o mediante un cliente FTP.
- Edita o crea el archivo «robots.txt» en el directorio raíz de tu servidor web. De esta manera, será accesible a través de la siguiente URL: «https://www.ejemplo.com/robots.txt».
Por ejemplo, el archivo «robots.txt» de The New York Times actualmente bloquea tanto a ChatGPT como a Bard.
El papel del archivo robots.txt
El archivo «robots.txt» funciona como conjunto de instrucciones para los bots y rastreadores web. Hasta ahora, se ha utilizado principalmente para dar directivas a los motores de búsqueda y también es posible excluir nuestro contenido de ellos.
Preguntas frecuentes
¿Qué pasa si mi proveedor de alojamiento no me permite acceder a la estructura de archivos de mi sitio web?
Si no puedes acceder a la estructura de archivos de tu servidor web, es posible que debas contactar al soporte técnico de tu proveedor para solicitar ayuda o considerar cambiar a un proveedor que te brinde más control sobre tu sitio web.
¿Esta medida garantiza que mi contenido no será utilizado por ChatGPT y Google Bard?
Si bien el archivo «robots.txt» indica a los bots de estas empresas que no accedan al contenido de tu sitio web, no podemos garantizar al 100% que no se utilice en sus conjuntos de datos de entrenamiento. Sin embargo, esta medida reduce significativamente las posibilidades de que tu contenido sea utilizado por ellos.