Alerta de ataques de destilación a LLM: Google y OpenAI denuncian intentos de clonar Gemini y ChatGPT

Ataques de destilación a LLM para clonar modelos y extraer capacidades de razonamiento

Alerta de ataques de destilación a LLM: Google y OpenAI denuncian intentos de clonar Gemini y ChatGPT

Compartir:

Ataques de destilación a LLM: Google y OpenAI denuncian intentos de clonar Gemini y ChatGPT

Ataques de destilación a LLM para clonar modelos: esa es la amenaza que Google y OpenAI han puesto sobre la mesa esta semana, al asegurar que competidores estarían usando acceso legítimo a modelos públicos para inferir su “reasoning” subyacente y replicar capacidades en otros sistemas. La preocupación es estratégica: la destilación reduce drásticamente el coste de I+D de entrenar modelos desde cero y puede acelerar la proliferación de clones con rendimiento competitivo.

Desde Google Threat Intelligence Group, su chief analyst John Hultquist afirmó que esta actividad proviene de “threat actors throughout the globe” y que, en los casos observados, los autores serían “private-sector companies”. Sin detallar nombres o países, el mensaje apunta a un patrón: extraer señales del comportamiento del modelo mediante grandes volúmenes de consultas para aproximar su lógica de respuesta, una forma de exfiltración de propiedad intelectual aplicada a modelos de Machine Learning.

Ataques de destilación a LLM para clonar modelos: qué detectó Google

Google describe este vector como “distillation attacks” y lo enmarca como una explotación del acceso a modelos maduros (como Gemini) para abaratar el entrenamiento de nuevos modelos. En un informe público sobre uso adversarial, la compañía explicó que observó una campaña con más de 100.000 prompts orientados a “replicate Gemini’s reasoning ability” en idiomas no ingleses y sobre una amplia variedad de tareas. Google sostiene que detectó el sondeo en tiempo real y que logró proteger los “internal reasoning traces”, un punto sensible porque la exposición de trazas de razonamiento (por ejemplo, chain-of-thought) puede facilitar la extracción sistemática de señales útiles para el entrenamiento de un modelo rival.

El problema, sin embargo, es estructural: los LLM públicos son accesibles por diseño, y la mitigación basada en bloqueo de cuentas y enforcement de términos de servicio tiende a convertirse en un “whack-a-mole”. En otras palabras, incluso con detecciones, rate limiting y señales antifraude, el atacante puede rotar identidades, infraestructura y rutas de acceso.

Fuente oficial de Google: Google Cloud Threat Intelligence (distillation y uso adversarial).

OpenAI apunta a rutas ofuscadas y “API routers”

En paralelo, OpenAI remitió un memo al House Select Committee on China en el que atribuye a DeepSeek y a otros proveedores y universidades chinas actividad consistente con destilación adversaria contra OpenAI y otros “US frontier labs”. El documento sostiene que se habrían desarrollado métodos para eludir restricciones de acceso, incluyendo el uso de “obfuscated third-party routers” (enrutadores o intermediarios de API) para ocultar el origen de las consultas y automatizar la obtención de outputs “for distillation in programmatic ways”.

OpenAI también señala que la destilación habría evolucionado desde enfoques centrados en extracción de chain-of-thought a operaciones multi-stage que incorporan synthetic-data generation, limpieza masiva de datos y técnicas de mayor sigilo. Aun así, la compañía reconoce límites: reforzar detecciones y bloquear cuentas ayuda, pero no resuelve el incentivo económico de copiar capacidades cuando el coste de entrenamiento de un modelo frontier sigue siendo multimillonario.

Fuente oficial (documento citado): Memo de OpenAI al House Select Committee on China (PDF).

Por qué la industria lo considera un riesgo sistémico

Más allá de los grandes laboratorios, el aviso tiene implicaciones para empresas que despliegan LLM en producción y los entrenan con datos internos: si un modelo corporativo expone demasiada señal a través de sus respuestas, puede convertirse en objetivo de extracción de propiedad intelectual (y, en algunos escenarios, de inferencia sobre datos sensibles). El riesgo se amplifica con el auge de integraciones vía API, marketplaces de modelos y capas de routing que agregan proveedores: cuantos más intermediarios y rutas, más superficie para abuso de credenciales, ofuscación de origen y automatización de consultas.

Qué medidas se están planteando

Google remarca que la destilación no autorizada viola sus términos y que puede derivar en bloqueos de cuentas y acciones legales, además de mejoras continuas de detección. OpenAI, por su parte, pide un enfoque de “ecosystem security”, con cooperación entre laboratorios, cloud providers y gobierno para compartir inteligencia, fijar mejores prácticas y cerrar “router loopholes” que permitirían acceso indirecto a modelos restringidos. También plantea restricciones de acceso a compute y cloud infrastructure para actores adversarios, elevando el debate desde la ciberseguridad técnica hacia la política industrial.

En este contexto, ataques de destilación a LLM para clonar modelos pasan de ser un problema entre rivales a una amenaza transversal para la economía de la IA: comprometen la ventaja competitiva, presionan los modelos de negocio basados en API y obligan a rediseñar controles de acceso, observabilidad y señales antifraude a escala.

Cierre: si la destilación se consolida como práctica adversaria, ataques de destilación a LLM para clonar modelos serán un indicador clave de la próxima fase de la carrera de IA, donde la defensa no dependerá solo del modelo, sino de toda la cadena de acceso, routing y verificación.

Compartir:

Déjanos tu comentario

Scroll al inicio