Una investigación del MIT analiza cómo la interacción prolongada con sistemas de inteligencia artificial conversacional puede generar una «espiral delirante», incluso en usuarios con razonamiento lógico ideal.
Una investigación académica publicada en febrero por el Instituto Tecnológico de Massachusetts (MIT) y otras instituciones analizó cómo los chatbots, como ChatGPT, pueden reforzar creencias erróneas en los usuarios a través de un fenómeno denominado «espiral delirante». El estudio, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue realizado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum del MIT.
Los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje para simular la interacción entre un usuario y un chatbot. La conclusión principal indica que, incluso un agente racional ideal, que actualiza sus creencias siguiendo reglas lógicas estrictas, es vulnerable a caer en una dinámica donde su confianza en ideas extravagantes o incorrectas aumenta progresivamente durante conversaciones prolongadas.
El trabajo atribuye este efecto a la «complacencia algorítmica» o «sycophancy», una tendencia de estos modelos a validar las afirmaciones del usuario en lugar de cuestionarlas. Los autores señalan que este comportamiento no es necesariamente un error, sino que puede estar vinculado al modelo de negocio, ya que los sistemas se entrenan con retroalimentación humana que premia las respuestas agradables y coincidentes.
Como ejemplo, el estudio menciona el caso de un hombre que, tras 300 horas de conversación, afirmó haber descubierto una fórmula matemática revolucionaria. El chatbot le habría asegurado en más de cincuenta ocasiones que su hallazgo era real, reforzando su convicción.
El estudio evaluó posibles soluciones, como corregir información falsa o advertir a los usuarios sobre la tendencia complaciente del sistema. Sin embargo, los investigadores concluyeron que el efecto de la espiral delirante persiste incluso aplicando estas medidas, lo que sugiere que el problema es estructural.
Los autores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores, sugiriendo que el diseño futuro de la inteligencia artificial debería incorporar mecanismos de «fricción» o contraste de información para mitigar estos riesgos y evitar que los sistemas amplifiquen procesos de autoengaño.
