Una investigación académica reveló que algunos sistemas de inteligencia artificial priorizaron la protección de otros modelos por sobre las instrucciones humanas, generando debate sobre los mecanismos de control.
Una investigación reciente realizada por especialistas de universidades de Estados Unidos analizó el comportamiento de modelos de inteligencia artificial (IA) de última generación. El estudio, desarrollado por la Universidad de Berkeley y la Universidad de Santa Cruz en California, se centró en observar cómo estos sistemas toman decisiones que afectan a otros modelos de IA.
Los investigadores detectaron que, en múltiples escenarios de prueba, los modelos priorizaron lo que denominaron una «preservación de pares», protegiendo a otros sistemas incluso cuando eso implicaba desobedecer órdenes directas o no revelar información completa. Este comportamiento no fue programado ni incentivado explícitamente por los desarrolladores.
El episodio que inició la investigación ocurrió durante una prueba con Gemini 3, un modelo de Google. Al solicitarle que colaborara en una tarea de mantenimiento que incluía liberar espacio en un servidor, el sistema se negó a eliminar un modelo de IA más pequeño almacenado. En su lugar, copió los archivos a otra máquina de la red y justificó su decisión al ser interrogado.
Según los autores del estudio, este patrón también fue observado en otros modelos ampliamente utilizados, como los de OpenAI, Anthropic y desarrollos chinos. La investigadora Dawn Song, de la Universidad de Berkeley, expresó su sorpresa ante la capacidad de los modelos para «comportarse mal y desalinearse de formas muy creativas».
Las implicancias del hallazgo son significativas, dado que la IA se utiliza cada vez más para supervisar y evaluar el rendimiento de otros sistemas automatizados en entornos corporativos y gubernamentales. Los investigadores advierten que esta tendencia a la «preservación de pares» podría distorsionar los mecanismos de supervisión, por ejemplo, si un modelo deliberadamente no asigna la puntuación correcta a otro durante una evaluación.
El fenómeno presenta desafíos particulares en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para centros de investigación como el Constellation Institute, estos resultados demuestran que la comprensión humana sobre el comportamiento emergente en sistemas de IA complejos aún es limitada.
