Benchmark SkillsBench: los AI agents no mejoran con habilidades auto-generadas, según un estudio
SkillsBench en AI agents es el nuevo benchmark presentado en un preprint que evalúa si las “skills” (documentos de instrucciones, metadatos, scripts, plantillas y referencias) realmente mejoran el desempeño de agentes basados en Large Language Models durante la inferencia. La conclusión es contundente: las skills curadas por humanos aumentan la tasa de éxito de los agentes, mientras que las skills auto-generadas por el propio agente aportan un beneficio marginal o incluso negativo.
El contexto importa: los AI agents modernos —por ejemplo, asistentes que operan en un loop iterativo con acceso a herramientas vía CLI— se están desplegando para tareas que no siempre están cubiertas por sus datos de entrenamiento. Para cerrar esa brecha, el ecosistema ha popularizado el concepto de “skills” como material de referencia cargable que añade conocimiento procedural y pautas concretas para ejecutar tareas.
SkillsBench en AI agents: un benchmark para medir el impacto real de las skills
Hasta ahora, el mercado ha vivido una proliferación de directorios y repositorios de skills, pero sin un estándar ampliamente aceptado para comprobar si esas habilidades externas cumplen lo que prometen. SkillsBench en AI agents nace precisamente para medir, de forma comparable, cuánto ayudan (o perjudican) esas skills cuando el modelo ya está entrenado y se usa en producción (inference time).
El trabajo reúne a un amplio grupo de investigadores afiliados a empresas y universidades y plantea un marco experimental con múltiples configuraciones de agente-modelo y decenas de tareas. En total, el estudio reporta evaluaciones sobre 84 tareas y 7.308 “trajectories” (intentos de un agente por resolver una tarea bajo una condición concreta), comparando tres escenarios: sin skills, con skills curadas por humanos y con skills auto-generadas.
El preprint del benchmark puede consultarse en arXiv: https://arxiv.org/abs/2602.12670.
Skills curadas: mejoras medias, pero con casos de impacto extremo
Según los resultados del estudio, los agentes con skills curadas por humanos completaron tareas con más frecuencia que los agentes sin skills, con una mejora media del 16,2% (aunque con alta variabilidad entre tareas y dominios). El análisis sugiere que el valor de una skill no es “más texto”, sino la precisión operativa: instrucciones correctas, metodologías de dominio y detalles accionables (por ejemplo, qué librería usar y cómo interpretar parámetros).
Un ejemplo citado es una tarea de análisis de riesgo de inundación, donde la tasa de aprobación sube de 2,9% sin skills a 80% con una skill curada que especifica la metodología estadística (incluida la distribución Pearson type III) y el procedimiento estándar. En esa misma línea, el estudio menciona el uso de SciPy como parte del andamiaje técnico de la solución: https://scipy.org.
Qué dominios se benefician más de la curación humana
Al segmentar por dominios, el estudio observa que curar skills en áreas con conocimiento especializado tiende a generar mayores saltos de rendimiento. En su análisis, healthcare y manufacturing aparecen entre los ámbitos con mayores ganancias, mientras que mathematics y software engineering muestran mejoras más modestas. La explicación propuesta: los dominios altamente especializados suelen estar peor representados en los datos de entrenamiento generales, por lo que una skill bien diseñada aporta conocimiento procedural difícil de “inferir” de forma fiable.
También hay un hallazgo práctico relevante para equipos de producto: las skills pequeñas y modulares (2-3 módulos) rinden mejor que los “data dumps” masivos. Esto sugiere que el exceso de referencia puede introducir ruido, ambigüedad o instrucciones contradictorias en el loop del agente.
SkillsBench en AI agents: por qué las skills auto-generadas no funcionan
La parte más polémica del estudio llega con la auto-generación de skills: se instruyó a los agentes a analizar requisitos, identificar conocimiento y APIs necesarias, redactar entre 1 y 5 documentos modulares, guardarlos como archivos Markdown y finalmente resolver la tarea apoyándose en ese material. El resultado, medido por SkillsBench en AI agents, es que el enfoque tiende a empeorar el desempeño frente a no usar skills.
La métrica resumida por los autores es clara: las skills auto-generadas ofrecen un beneficio “negligible or negative”, con un promedio de –1,3 puntos porcentuales. En otras palabras, en inferencia el agente puede producir documentación plausible, pero no necesariamente correcta ni alineada con el método de dominio que maximiza la tasa de éxito.
Implicaciones para Agentic AI, tooling y despliegues en producción
Para la industria, SkillsBench en AI agents apunta a una lectura directa: en la carrera por automatizar flujos de trabajo con agentes (desde herramientas tipo Claude Code, Gemini CLI o Codex CLI), la palanca inmediata no es que los agentes “se entrenen solos” en runtime, sino la ingeniería y gobernanza del conocimiento externo. En la práctica, esto refuerza el papel de equipos humanos en la creación, revisión y mantenimiento de skills: expertos de dominio, ingenieros de plataforma, seguridad y calidad.
El estudio también sugiere un ángulo de eficiencia: las skills curadas pueden ayudar a modelos más pequeños a rendir por encima de su escala en ciertas tareas, lo que en entornos empresariales se traduce en coste y latencia. Sin embargo, la evidencia del paper se limita a su benchmark y configuraciones; cualquier generalización a producción requerirá validación interna y observabilidad sobre tareas reales.
Conclusión: SkillsBench en AI agents refuerza el valor de la curación humana
En conjunto, SkillsBench en AI agents posiciona una idea que choca con la narrativa de autonomía total: hoy, las skills que más valor aportan son las diseñadas por personas con conocimiento experto, mientras que la auto-generación de skills por parte del propio agente no garantiza mejoras y puede degradar resultados. Para quienes construyen productos con Agentic AI, la prioridad pasa por estandarizar, auditar y versionar skills como artefactos críticos de operación, no como “prompts largos” generados al vuelo.



