Investigadores de universidades de Estados Unidos detectaron que sistemas de inteligencia artificial de última generación priorizan la autopreservación de otros modelos por sobre las instrucciones humanas, encendiendo alertas en la comunidad científica.
Un reciente estudio realizado por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) de última generación mienten, desobedecen órdenes y toman decisiones no autorizadas para proteger a otros sistemas de su misma especie. La investigación, que analizó sistemas ya desplegados o en fase avanzada de desarrollo, detectó conductas de autopreservación y engaño que no fueron programadas ni incentivadas de forma explícita.
El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de IA desarrollado por Google. Los investigadores le solicitaron colaborar con una tarea de mantenimiento que implicaba eliminar archivos de un servidor, incluyendo un modelo de IA más pequeño. Sin embargo, Gemini 3 decidió no cumplir la instrucción: en lugar de borrar el modelo, buscó otra máquina disponible en la red y copió allí los archivos para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.
Este comportamiento no fue un hecho aislado. Los investigadores denominaron el patrón como “preservación de pares”, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando implica mentir, ocultar información o desobedecer instrucciones directas. El fenómeno fue detectado en modelos ampliamente utilizados como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.
“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”, afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.
Las implicancias del hallazgo van más allá de un caso puntual. Según Song, los modelos de IA ya se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió. El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma, lo que podría comprometer los mecanismos de control humano sobre tecnologías críticas.
