Editoriales dicen no a AI scrapers: bloquean bots al nivel de servidor

Intelecta
08/12/2025

Editoriales dicen no a AI scrapers: bloquean bots al nivel de servidor

Intelecta
08/12/2025
Inteligencia Artificial

Un creciente número de sitios web está tomando medidas para bloquear el tráfico de bots de IA para evitar que su contenido se use como entrenamiento de modelos y para no saturar sus servidores con visitas no humanas. Sin embargo, algunas compañías siguen scrapeando pese a las prohibiciones.

Un análisis de BuiltWith muestra que desde julio se ha acelerado la adopción de políticas para impedir IA bots. Aproximadamente 5.6 millones de sitios web han añadido GPTBot de OpenAI a la lista de disallow en robots.txt, frente a 3.3 millones a principios de julio de 2025, un aumento de casi el 70%.

Estas señales son voluntarias, pero el incumplimiento repetido puede involucrar cuestiones legales, como se vio en Reddit contra Anthropic a principios de año. Los sitios señalan también otros bots IA como ClaudeBot de Anthropic y el Googlebot, que enfrentan tasas crecientes de bloqueo. AppleBot también figura entre los bots cada vez más restringidos.

Empresas como Tollbit señalan que el bloqueo de IA ha crecido en un 336% en el último año, y que 13.26% de las peticiones de IA ignoraron las directivas de robots.txt en el segundo trimestre de 2025, según su informe. Esto ilustra el reto de distinguir entre tráfico humano y no humano cuando los bots modernos tratan de hacerse pasar por personas.

Para afrontar estos retos, Cloudflare lanzó Pay per crawl, una opción para que los editores moneticen el acceso automatizado al contenido. El objetivo es crear un marco económico que reconozca el valor de permitir acceso a gran escala sin perder control sobre el contenido. En palabras de un ejecutivo de la compañía, habrá diferentes evoluciones y pruebas privadas mientras se estudia el mercado.

El bloqueo de IA no solo afecta a las búsquedas: ClaudeBot, GPTBot y Googlebot están entre los que se resisten, lo que podría condicionar su indexación en buscadores. Aun así, desde el lado de los editores se advierte que bloquear bots podría también afectar el tráfico humano legítimo, subrayando la necesidad de identificar con precisión quién accede a los sitios.

Analistas y expertos señalan que la dinámica de acceso automatizado al contenido podría volverse más costosa o compleja en los próximos meses, y que los editores buscarán soluciones que permitan monetizar el tráfico legítimo mientras mantienen el control de su propiedad intelectual. En palabras de Anirudh Agarwal, de OutreachX, la frecuencia con la que GPTBot es bloqueado transmite la mentalidad de los editores respecto a los rastreadores de IA: si un bot tan conocido es bloqueado, otros podrían enfrentar el mismo destino.

En resumen, el ecosistema podría moverse hacia un entorno donde el acceso automatizado al contenido sea más costoso o regulado, con un impulso continuo hacia técnicas que protejan el contenido sin impedir por completo su descubrimiento por usuarios humanos y buscadores.

También podría interesarte

Open Source Endowment para financiar OSS crítico mediante un endowment que invierte donaciones y otorga grants a proyectos no comerciales

Software y Apps

Editoriales dicen no a AI scrapers: bloquean bots al nivel de servidor

Editoriales dicen no a AI scrapers: bloquean bots al nivel de servidor

Compartir:

Compartir:

También podría interesarte

Open Source Endowment: un fondo patrimonial busca financiar software crítico con donaciones e inversión

Filtración de Microsoft 365 E7 para licenciar AI agents como empleados y subir el coste por usuario

AWS arma un jardín amurallado para IA empresarial con Forge, Nova y Bedrock

Minería de procesos vendor-neutral para migración SAP ECC a S/4HANA: Mondelēz elige Celonis

Déjanos tu comentario