Alerta: un informe con Microsoft Copilot provocó un veto y la dimisión del jefe policial de West Midlands
La alucinación de Microsoft Copilot en un informe policial ha escalado a un caso institucional en Reino Unido: el Chief Constable de West Midlands Police, Craig Guildford, se retiró del cargo tras conocerse que su fuerza utilizó contenido ficticio generado por Copilot como parte del razonamiento para impedir la asistencia de aficionados israelíes a un partido de la Europa League. El episodio reabre el debate sobre el uso de Generative AI en procesos de decisión pública, especialmente cuando el output se integra como “evidencia” operativa.
Qué ocurrió: la alucinación de Microsoft Copilot en un informe policial
Según la documentación citada por el propio responsable policial en una comunicación formal, la fuerza basó parte de su evaluación en supuestos incidentes de un partido que no existió entre Maccabi Tel Aviv y West Ham. Ese material, más tarde, fue atribuido a Microsoft Copilot, es decir, a una salida generada que no correspondía con hechos verificables. En otras palabras: la alucinación de Microsoft Copilot en un informe policial acabó influyendo en una decisión real de orden público.
El punto crítico no fue solo la existencia del contenido inventado, sino el circuito por el que entró en el proceso. En su comparecencia inicial ante MPs, Guildford aseguró que el hallazgo se hizo mediante una búsqueda en Google “sin funciones de AI” y llegó a afirmar: “we do not use AI”. Días después, rectificó por escrito al reconocer que el resultado erróneo “arose as result of a use of Microsoft Co Pilot (sic)”.
Dimisión, presión política y crisis de confianza
El retiro de Guildford se produce tras un periodo de presión pública y política. La Home Secretary Shabana Mahmood declaró que no tenía confianza en el jefe policial, aunque cualquier decisión laboral dependía de la estructura local (Police and Crime Commissioner). Paralelamente, la fuerza también fue criticada por el enfoque de su decisión, interpretada por algunos sectores como una postura antiisraelí, lo que añadió sensibilidad reputacional y política al caso.
Por qué esto importa para la industria de la IA
El caso pone el foco en un problema conocido en Large Language Models: las “hallucinations”, es decir, respuestas plausibles pero falsas. Cuando esos outputs se introducen en flujos de trabajo que operan como sistemas de evidencia (informes, briefings, evaluaciones de riesgo), el error deja de ser anecdótico y se convierte en un riesgo operativo, legal y de gobernanza. La alucinación de Microsoft Copilot en un informe policial es un ejemplo de alto impacto porque conecta directamente la fiabilidad del modelo con una decisión que afecta derechos y seguridad en un evento masivo.
Antecedentes: alucinaciones en documentos y sanciones
Este no es un fenómeno aislado. En los últimos años, se han documentado casos de profesionales citando jurisprudencia inexistente generada por chatbots en procesos legales en EEUU y Reino Unido, con advertencias y potenciales sanciones. También se han reportado incidentes en consultoría y sector público cuando informes creados con Generative AI incorporaron referencias o footnotes inventadas. En conjunto, estos precedentes refuerzan que el problema no es solo “técnico”, sino de control de calidad, verificación y responsabilidad.
Qué dice Microsoft sobre Copilot y sus límites
Microsoft posiciona Copilot como una capa de asistencia basada en AI para productividad y búsqueda contextual, pero el rendimiento depende del prompt, de las fuentes disponibles y del contexto de uso. El reto, cuando Copilot se usa para investigación o redacción de informes, es evitar que el output se trate como un “dato” sin verificación. Para contexto oficial sobre el producto, puede consultarse la página de Microsoft Copilot: https://www.microsoft.com/en-us/microsoft-copilot.
En paralelo, la discusión regulatoria y de buenas prácticas se apoya cada vez más en estándares y marcos de riesgo. Un punto de referencia técnico y de políticas públicas es el trabajo del NIST sobre AI Risk Management Framework (AI RMF): https://www.nist.gov/itl/ai-risk-management-framework.
Implicaciones: de la búsqueda asistida a decisiones públicas
La lección central es que la adopción de herramientas de Generative AI ya no se limita a tareas internas de productividad: también puede contaminar procesos de decisión si no hay trazabilidad, verificación y controles. En entornos como fuerzas de seguridad, justicia o administración pública, el listón de evidencia es más exigente y el coste de un error reputacional o procedimental es mucho mayor.
Con la alucinación de Microsoft Copilot en un informe policial como detonante, el caso de West Midlands Police se perfila como un precedente: no por “usar AI”, sino por hacerlo sin un marco robusto de validación humana y gobernanza de fuentes. Y en 2026, ese matiz ya marca la diferencia entre innovación responsable y crisis institucional.



