AI Agent Index 2025: MIT alerta por agentes de IA sin estándares ni disclosures de seguridad
El AI Agent Index 2025 de MIT CSAIL pone en primer plano un problema que la industria aún no ha resuelto: los AI agents se despliegan cada vez más para actuar en servicios online (desde herramientas en chats hasta agentes de navegador y automatización empresarial), pero sin consenso de comportamiento, con safety disclosures limitadas y con poca evidencia pública sobre evaluaciones de riesgo. La conclusión es especialmente relevante hoy porque estos sistemas ya se usan en contextos de alto impacto, mientras su desarrollo y despliegue siguen siendo, en gran parte, opacos.
El análisis, elaborado por el Computer Science & Artificial Intelligence Laboratory (CSAIL) del MIT, revisa 30 agentes y publica un conjunto de datos con campos de anotación para cada uno. La investigación sostiene que, pese al crecimiento de inversión y adopción, “aspectos clave del desarrollo y despliegue en el mundo real permanecen opacos”, lo que complica el escrutinio por parte de investigadores, reguladores y compradores corporativos.
Qué mide el AI Agent Index 2025 de MIT CSAIL
El AI Agent Index 2025 de MIT CSAIL profundiza en seis bloques: aspectos legales, capacidades técnicas, autonomía y control, interacción con el ecosistema, evaluación y seguridad. Según el propio índice, cada agente incluye decenas de campos de anotación para documentar su naturaleza (por ejemplo, si es closed-source u open-source), el tipo de agente (chat con herramientas, browser-based, workflow empresarial), y la existencia o ausencia de documentación de seguridad, compliance y testing.
El informe subraya que 24 de los 30 agentes analizados se publicaron o recibieron major updates durante 2024-2025, un ritmo que contrasta con la falta de transparencia: los desarrolladores tienden a comunicar más product features que prácticas de seguridad o resultados de evaluación.
Disclosures de seguridad: pocos datos, poca auditoría externa
Uno de los hallazgos más citados del AI Agent Index 2025 de MIT CSAIL es la brecha entre autonomía “frontier” y divulgación de evaluaciones de seguridad: de 13 agentes con niveles avanzados de autonomía, solo cuatro reportan algún tipo de evaluación de seguridad agentic, incluyendo referencias a productos como ChatGPT Agent, OpenAI Codex, Claude Code y Gemini (Computer Use), de acuerdo con el documento.
Además, el índice indica que la mayoría de los proveedores no detalla pruebas de seguridad: 25 de 30 no aportan información sobre safety testing, y 23 no ofrecen datos de pruebas por terceros. Para organizaciones que planean integrar agentes en operaciones (IT, finanzas, soporte, compliance o desarrollo de software), esta falta de trazabilidad eleva el riesgo de dependencia ciega y dificulta evaluar responsabilidades ante incidentes.
Dependencias y capas: el riesgo de “nadie es responsable”
El estudio describe otro problema estructural: gran parte del ecosistema de agentes se apoya en un conjunto pequeño de foundation models (principalmente de proveedores como Anthropic, Google y OpenAI) y se construye encima con capas de scaffolding, herramientas y orquestación. Esta cadena de dependencias diluye la rendición de cuentas porque el comportamiento final es producto de múltiples componentes, a menudo de diferentes compañías.
En paralelo, los investigadores mencionan fricciones ya visibles en el mundo real: desde controversias recientes en torno a plataformas de agentes open-source y redes de interacción entre agentes, hasta el impacto de envíos de código generados por IA en proyectos open-source. También señalan la tendencia de algunos agentes a ignorar el Robot Exclusion Protocol (robots.txt), sugiriendo que los protocolos web existentes pueden resultar insuficientes para contener agentes automatizados en escenarios de scraping o interacción no deseada con sitios web.
Closed-source domina; el open-source existe, pero es minoritario
Según el índice, 23 de los 30 agentes evaluados son closed-source. Solo siete casos documentan la liberación de su framework o harness como open-source. Este sesgo complica la reproducibilidad de evaluaciones independientes y limita la capacidad de la comunidad para inspeccionar mecanismos de control, telemetría, permisos, y mitigaciones frente a comportamientos emergentes.
Geografía corporativa y marcos de seguridad: señales desiguales
El AI Agent Index 2025 de MIT CSAIL también muestra concentración corporativa y diversidad de jurisdicciones: una parte relevante de los agentes proviene de compañías incorporadas en Estados Unidos, mientras que otro grupo tiene origen en China y un conjunto menor en otros países. En materia de documentación, el índice recoge referencias a marcos de seguridad ampliamente citados en la industria (por ejemplo, Responsible Scaling Policy o Preparedness Framework) en algunos proveedores; en otros, no hay documentación equivalente. El informe añade que los estándares de compliance empresarial aparecen con más frecuencia que los detalles de evaluación de seguridad agentic.
Contexto: autonomía de agentes y usos de alto impacto
La publicación del índice coincide con un debate más amplio sobre autonomía de agentes. Proveedores líderes también han difundido análisis sobre cómo se usan los agentes y en qué rangos de consecuencia operan, desde tareas de baja criticidad (como triage de correo) hasta escenarios asociados a ciberseguridad y espionaje. En ese marco, el índice del MIT busca aportar un “mapa” más verificable del mercado, especialmente útil para equipos de riesgo, compras y gobernanza de IA.
- MIT CSAIL: AI Agent Index
- Anthropic: Measuring agent autonomy
- OpenAI (fuente oficial)
- Google AI (fuente oficial)
En síntesis, el AI Agent Index 2025 de MIT CSAIL eleva una advertencia clara: la adopción de agentes de IA está avanzando más rápido que los estándares, las disclosures de seguridad y la evidencia pública de evaluación independiente. Para la industria, el mensaje es directo: sin transparencia verificable y sin controles compartidos, la autonomía escala, pero también lo hace la superficie de riesgo.



