El aumento de
bots de IA,
scrapers y
crawlers que recopilan datos web para entrenar modelos ha generado preocupaciones entre los creadores de contenido.
Muchas de estas herramientas operan sin transparencia, a veces haciéndose pasar por navegadores legítimos, y el control sobre cómo se usa el contenido es restringido.
Existen varias herramientas que permiten a los clientes
bloquear bots de IA con un solo clic, sin embargo aquí vamos a ver cómo lo puedes hacer manualmente rellenando tu informe físico robots.txt.
Si necesitas saber qué es el documento robots.txt, este artículo de Cloudflare es muy bueno: ¿Qué es el informe robots.txt? | Cómo funciona un documento robots.txt
Para
bloquear los
bots conocidos, simplemente añade -utilizando el administrador de informes de tu hosting- las instrucciones correspondientes al documento robots.txt.
En este repositorio de GitHub, existe una lista abierta de rastreadores web asociados con empresas de IA y la capacitación de LLM para bloquearlos. Consulta
la información sobre los rastreadores incluidos en la lista y las
dudas frecuentes.