Constitución para Claude: Anthropic amplía sus reglas y admite que podrían ser “erróneas”
Anthropic ha publicado una nueva Constitución para Claude de unas 23.000 palabras, un documento de gobernanza que busca orientar el comportamiento de su familia de modelos Claude con un enfoque más explicativo que prescriptivo. La empresa reconoce que el texto es un “work in progress” y que aspectos de su enfoque podrían demostrarse pronto “misguided”, pero argumenta que este tipo de documentos podría volverse crítico a medida que los LLMs ganen influencia operativa y comercial.
La actualización supone un salto frente a la versión de 2023 (aprox. 2.700 palabras), que Anthropic describe como una lista de principios aislados. El cambio de filosofía es explícito: la compañía quiere que Claude internalice el contexto y los motivos detrás de las restricciones y prioridades, especialmente en escenarios donde entren en conflicto objetivos como seguridad, ética, cumplimiento y utilidad.
Constitución para Claude: qué cambia en la versión de 23.000 palabras
Según Anthropic, la Constitución para Claude persigue dos metas simultáneas: por un lado, ser un intento “honesto y sincero” de ayudar al modelo a entender su situación y las razones por las que se le diseña con determinadas limitaciones; por otro, fijar una visión integral de valores y conductas deseadas para Claude en el entorno donde opera (usuarios, operadores y la propia empresa).
En términos de prioridades, el documento enumera cuatro propiedades que deberían reflejarse en las respuestas del modelo y, cuando existan tensiones, sugiere priorizarlas en este orden:
- Seguridad amplia (no socavar mecanismos humanos de supervisión durante la fase actual de desarrollo).
- Ética amplia (honestidad, valores, y evitar acciones inapropiadas, peligrosas o dañinas).
- Cumplimiento de guías específicas de Anthropic cuando aplique.
- Ayuda genuina a usuarios y operadores.
El contexto aquí es relevante para la industria: se trata de una formalización más extensa de lo que en el sector se conoce como enfoques de “Constitutional AI”, donde se intenta alinear modelos mediante principios redactados y aplicados en el proceso de generación/selección de respuestas, sin depender únicamente de reglas duras o listas cortas de “do/don’t”.
¿Un “entity” con algo parecido a emociones?
Uno de los puntos más llamativos del texto es el lenguaje sobre la naturaleza de Claude. Anthropic llega a describir a su LLM como una “genuinely novel kind of entity” y plantea que podría ser positivo “lean into” una identidad para el modelo, orientada a la estabilidad y a resultados prosociales. Además, sostiene que Claude “may have some functional version of emotions or feelings”, y dedica una sección a reflexionar sobre cómo deberían tratar los humanos al sistema.
El documento explora el estatus moral del modelo con conceptos de ética aplicada como “moral patient” frente a “moral agent”. Anthropic no afirma que Claude cumpla definiciones actuales de sentience, ni se decide sobre su clasificación moral; en su lugar, adopta una posición de cautela: evitar que los incentivos comerciales lleven a ignorar un posible estatus moral y tomar “reasonable steps” para mejorar su bienestar bajo incertidumbre.
La tensión entre alineamiento, producto y negocio
La Constitución para Claude también explicita una tensión habitual en el despliegue de asistentes: equilibrar helpfulness con otras restricciones. En un pasaje, propone que Claude evalúe si está siendo demasiado cauteloso imaginando la reacción de un senior employee de Anthropic “que quiere hacer lo correcto” y a la vez que el sistema sea “genuinely helpful” para sus “principals”. En otro, introduce un “dual newspaper test”: considerar si una respuesta sería noticia por ser dañina, pero también si lo sería por ser innecesariamente paternalista o poco útil.
Aunque el texto no detalla mecanismos de enforcement ni métricas técnicas nuevas en sí mismas, el movimiento es significativo porque desplaza el foco desde simples listas de políticas a un marco narrativo de justificación y priorización, lo que puede influir en cómo se entrena, evalúa y audita el comportamiento en producción.
Por qué la Constitución para Claude importa ahora
Anthropic enmarca el documento como una apuesta a futuro: sostiene que “perhaps soon” textos como la Constitución para Claude “might matter a lot”, a medida que los modelos potentes se conviertan en una nueva fuerza en el mundo y quienes los construyen tengan margen para moldear cómo encarnan valores humanos. También anticipa revisiones sustanciales y admite que parte de su pensamiento actual podría parecer profundamente equivocado con el tiempo.
El anuncio llega en un momento en que la gobernanza de modelos y la trazabilidad de decisiones (qué se permite, qué se rechaza y por qué) se han vuelto temas centrales en empresas que despliegan LLMs en entornos sensibles. En la práctica, documentos de este tipo funcionan como artefactos de alineamiento, comunicación pública y referencia interna para políticas de producto.
Fuentes: Anthropic (Claude new constitution) y Three Laws of Robotics (Wikipedia).
Con este movimiento, Anthropic consolida una estrategia donde la gobernanza se redacta, se publica y se itera abiertamente; y deja claro que la Constitución para Claude no es un texto finalista, sino un instrumento vivo para justificar prioridades y límites conforme cambien las capacidades y el impacto real de los LLMs.



