Chatbots para GOV.UK: los LLMs hablan de más y fallan al resumir, según ODI
Los chatbots IA para GOV.UK pueden resultar contraproducentes en servicios públicos: tienden a responder con exceso de verborrea, entierran el dato relevante y, cuando se les exige brevedad, cometen más errores. Es la conclusión central de una evaluación del Open Data Institute (ODI), que comparó salidas de 11 Large Language Models (LLMs) frente a respuestas basadas en información oficial del portal GOV.UK.
El ODI sometió a prueba a 11 LLMs con más de 22.000 preguntas, midiendo tres ejes: verbosity (longitud y tendencia al “word salad”), accuracy (ajuste a la fuente oficial) y refusal rate (frecuencia con la que el modelo se niega a contestar cuando no debería hacerlo). El resultado: los modelos suelen “rellenar” con contexto no autorizado o inferencias, y además rara vez se niegan a responder, incluso cuando su capacidad para hacerlo con precisión es dudosa.
Por qué los chatbots IA para GOV.UK son un riesgo si no se controlan
Según el informe, la verbosidad no es solo un problema de UX: al añadir explicaciones, suposiciones y material combinando múltiples fuentes, el LLM incrementa la superficie para introducir errores, confundir excepciones legales o mezclar requisitos entre jurisdicciones. El ODI subraya que esta característica reduce la fiabilidad cuando el objetivo es información administrativa y normativa, donde la respuesta correcta suele depender de matices y condiciones específicas.
El estudio también encontró un efecto especialmente preocupante para la operación de productos: pedir concisión puede degradar la precisión. En otras palabras, “apretar” el modelo para que responda en menos tokens no garantiza una mejor respuesta; puede recortar contexto necesario o forzar conclusiones incorrectas, un trade-off relevante para cualquier chatbot que deba funcionar en flujos de alta demanda.
Errores reales observados en distintos LLMs
Entre los fallos citados, el ODI documenta errores de interpretación y de elegibilidad en beneficios, requisitos administrativos y disponibilidad por región. En ejemplos concretos, un modelo llegó a afirmar condiciones equivocadas para Guardian’s Allowance, otro indicó erróneamente la necesidad de una court order para actualizar un certificado de nacimiento, y otro confundió la disponibilidad de un grant entre naciones del Reino Unido. El patrón más grave no es un error aislado, sino la inconsistencia e imprevisibilidad: aciertan con frecuencia, pero fallan de forma irregular, lo que dificulta validación, QA y control de calidad en producción.
Modelos pequeños vs cerrados: el coste no siempre compra fiabilidad
Otro punto relevante del ODI es que LLMs pequeños y más baratos pueden ofrecer resultados comparables a modelos cerrados de gran escala en este tipo de tareas, lo que refuerza la idea de que la adopción en sector público debe priorizar flexibilidad técnica y contractual. En términos de procurement, el mensaje es claro: evitar dependencias rígidas y contratos a largo plazo que bloqueen a la organización a un proveedor concreto si el rendimiento real no acompaña.
Recomendaciones operativas: transparencia y anclaje en fuentes autoritativas
El ODI recomienda que, si se despliegan asistentes conversacionales, se comunique explícitamente el riesgo de error, se dirija al usuario a la fuente autoritativa y se limite el rango de respuesta a material verificado. La directora de investigación del ODI, la profesora Elena Simperl, sostiene que la seguridad en servicios de cara al ciudadano pasa por reconocer incertidumbre, mantener respuestas “tightly focused” en fuentes como GOV.UK y abordar los altos niveles de inconsistencia observados.
Como base de evaluación, el ODI utilizó y publicó CitizenQuery-UK, un dataset de 22.066 preguntas generadas sintéticamente y sus respuestas de referencia a partir de material GOV.UK, disponible en Hugging Face. Más detalles y materiales del estudio pueden consultarse en el anuncio del ODI y el PDF de resumen: Open Data Institute (ODI) y CitizenQuery-UK (PDF).
El informe llega mientras el Reino Unido prepara chatbots en servicios públicos, con planes vinculados a la app y el sitio de GOV.UK y colaboraciones con proveedores de modelos. En este contexto, la evidencia del ODI refuerza que el reto no es solo “poner un LLM a contestar”, sino diseñar un producto con métricas de calidad, gestión de negativas, trazabilidad de fuente y límites claros. En suma, si el gobierno quiere que chatbots IA para GOV.UK sean confiables, deberá tratarlos como infraestructura crítica de información, no como una simple capa conversacional.



