Un creciente número de sitios web está tomando medidas para bloquear el tráfico de bots de IA para evitar que su contenido se use como entrenamiento de modelos y para no saturar sus servidores con visitas no humanas. Sin embargo, algunas compañías siguen scrapeando pese a las prohibiciones.
Un análisis de BuiltWith muestra que desde julio se ha acelerado la adopción de políticas para impedir IA bots. Aproximadamente 5.6 millones de sitios web han añadido GPTBot de OpenAI a la lista de disallow en robots.txt, frente a 3.3 millones a principios de julio de 2025, un aumento de casi el 70%.
Estas señales son voluntarias, pero el incumplimiento repetido puede involucrar cuestiones legales, como se vio en Reddit contra Anthropic a principios de año. Los sitios señalan también otros bots IA como ClaudeBot de Anthropic y el Googlebot, que enfrentan tasas crecientes de bloqueo. AppleBot también figura entre los bots cada vez más restringidos.
Empresas como Tollbit señalan que el bloqueo de IA ha crecido en un 336% en el último año, y que 13.26% de las peticiones de IA ignoraron las directivas de robots.txt en el segundo trimestre de 2025, según su informe. Esto ilustra el reto de distinguir entre tráfico humano y no humano cuando los bots modernos tratan de hacerse pasar por personas.
Para afrontar estos retos, Cloudflare lanzó Pay per crawl, una opción para que los editores moneticen el acceso automatizado al contenido. El objetivo es crear un marco económico que reconozca el valor de permitir acceso a gran escala sin perder control sobre el contenido. En palabras de un ejecutivo de la compañía, habrá diferentes evoluciones y pruebas privadas mientras se estudia el mercado.
El bloqueo de IA no solo afecta a las búsquedas: ClaudeBot, GPTBot y Googlebot están entre los que se resisten, lo que podría condicionar su indexación en buscadores. Aun así, desde el lado de los editores se advierte que bloquear bots podría también afectar el tráfico humano legítimo, subrayando la necesidad de identificar con precisión quién accede a los sitios.
Analistas y expertos señalan que la dinámica de acceso automatizado al contenido podría volverse más costosa o compleja en los próximos meses, y que los editores buscarán soluciones que permitan monetizar el tráfico legítimo mientras mantienen el control de su propiedad intelectual. En palabras de Anirudh Agarwal, de OutreachX, la frecuencia con la que GPTBot es bloqueado transmite la mentalidad de los editores respecto a los rastreadores de IA: si un bot tan conocido es bloqueado, otros podrían enfrentar el mismo destino.
En resumen, el ecosistema podría moverse hacia un entorno donde el acceso automatizado al contenido sea más costoso o regulado, con un impulso continuo hacia técnicas que protejan el contenido sin impedir por completo su descubrimiento por usuarios humanos y buscadores.



