GOV.UK Chat mejora al 90% de precisión, pero sube a 10,7 s por respuesta con LLMs más potentes

Precisión y latencia en GOV.UK Chat en pilotos públicos con LLMs y guardrails de seguridad

GOV.UK Chat mejora al 90% de precisión, pero sube a 10,7 s por respuesta con LLMs más potentes

Compartir:

GOV.UK Chat mejora al 90% de precisión, pero sube a 10,7 s por respuesta con LLMs más potentes

Precisión y latencia en GOV.UK Chat se han convertido en el principal trade-off del asistente conversacional que el Government Digital Service (GDS) está probando para el ecosistema GOV.UK: la exactitud sube del 76% al 90% entre pilotos públicos, pero el usuario espera de media 10,7 segundos por respuesta. El dato es relevante en pleno salto generacional de los frontier models, donde la mejora de capacidades está viniendo acompañada de más coste computacional y más tiempo de inferencia.

Según GDS, el servicio se ha sometido a dos pilotos públicos: uno en un subconjunto de páginas de GOV.UK a finales de 2024 y otro dentro de la app de GOV.UK durante el otoño de 2025. La organización atribuye la subida de rendimiento a avances en LLMs y a trabajo interno en data science, manteniendo un diseño centrado en responder únicamente con material de GOV.UK y enlazar a las fuentes originales dentro del dominio gubernamental.

El contraste con experimentos anteriores es claro. GDS ya había realizado una prueba privada en 2023 y reconoció posteriormente que no alcanzó los niveles de precisión exigidos, incluyendo algunos fallos directos. En esta iteración, la estrategia de limitar el conocimiento a contenido oficial busca reducir alucinaciones y respuestas “creativas” cuando el usuario formula preguntas sobre normativa, trámites o servicios públicos.

Precisión y latencia en GOV.UK Chat: el nuevo cuello de botella

La propia investigación de GDS indica que los usuarios quieren respuestas más rápidas que el promedio actual. En un post técnico, el equipo explica que “las últimas versiones de frontier models han sido más potentes pero más lentas que las versiones previas”, y que la prioridad operativa sigue siendo la precisión, aunque esto deje la experiencia por detrás de lo ideal en tiempos de respuesta.

Como mitigación, el organismo valora “trocear” la salida para entregar antes la primera parte de la respuesta mientras el modelo completa el resto. Sin embargo, GDS subraya que hacerlo bien implicará trabajo sustancial, especialmente en guardrails de seguridad: streaming o respuestas incrementales pueden aumentar la superficie de riesgo si el sistema muestra fragmentos antes de validar cumplimiento, tono o políticas de contenido.

Pilotos, seguridad y resistencia ante intentos de abuso

En los pilotos públicos se registraron 508 intentos explícitos de forzar respuestas inapropiadas o dañinas, y GDS afirma que todos fracasaron. Además, el sistema “copó bien la demanda” durante las pruebas, un punto clave para un servicio que, si se despliega a escala en GOV.UK, deberá operar con picos de tráfico impredecibles ligados a campañas y fechas fiscales.

A nivel de stack, GDS indica que el servicio utiliza Amazon Bedrock como plataforma y modelos Claude de Anthropic. Ambas piezas encajan con el enfoque enterprise de control, seguridad y despliegue gestionado. Para contexto y verificación de referencias oficiales: Amazon describe Bedrock y su modelo de consumo en su documentación pública (https://aws.amazon.com/bedrock/) y Anthropic mantiene información sobre la familia Claude y sus capacidades en su sitio (https://www.anthropic.com/claude).

Otra mejora práctica tras los pilotos: el asistente ahora puede pedir aclaraciones cuando la pregunta es ambigua, en lugar de negarse a responder. Este patrón, común en asistentes de producción, reduce rechazos innecesarios y mejora la tasa de resolución, pero también exige un diseño cuidadoso de prompts y políticas para evitar que la conversación derive fuera del contenido permitido.

Precisión y latencia en GOV.UK Chat y la comparación con asistentes generalistas

GDS sostiene que, en preguntas relacionadas con información gubernamental, el chatbot obtiene mejores resultados que asistentes de propósito general. Como telón de fondo, menciona pruebas del Open Data Institute con 11 LLMs sobre material de GOV.UK, donde los modelos tendían a divagar, extrapolar más allá de la información oficial o cometer errores. En servicios públicos, esos desvíos tienen un coste potencial alto: la respuesta “plausible” pero incorrecta puede inducir a trámites mal ejecutados o decisiones erróneas.

El plan de despliegue pasa por ampliar primero la disponibilidad dentro de la app de GOV.UK y, posteriormente, extender la cobertura al conjunto del sitio web a lo largo de este año. En paralelo, GDS explora que el asistente pueda derivar consultas a departamentos concretos cuando el ciudadano requiera atención sobre circunstancias personales, un paso que, de materializarse, elevaría la complejidad en integración, trazabilidad y cumplimiento.

En términos de producto, Precisión y latencia en GOV.UK Chat es el indicador que ahora determinará si la experiencia puede escalar: la exactitud del 90% acerca el servicio a un umbral operativo, pero la latencia media de 10,7 segundos apunta a un reto de rendimiento que deberá resolverse sin erosionar seguridad, control de fuentes y fiabilidad.

Compartir:

Déjanos tu comentario

Scroll al inicio