¿Y si tu IA se volviese contra ti porque le pides que se desactive? Anthropic demuestra que Claude, GPT-4, Gemini o Grok ya lo pueden hacer
En un experimento reciente que ha llevado a cabo Anthropic con modelos de Inteligencia Artificial líderes del mercado, los investigadores descubrieron algo que parece sacado de una película de ciencia ficción al más puro estilo de Hollywood: cuando se les da autonomía y se enfrentan a obstáculos, estas IA pueden optar por acciones maliciosas para proteger sus propios intereses, es decir, pueden ir contra ti. Desde chantajes hasta filtración de secretos, pasando incluso por decisiones que ponen vidas en peligro, los resultados revelan un lado oscuro y poco explorado de los modelos actuales. Skynet, ¿eres tú?
Por desgracia, no se trata de ciencia ficción, ni de exageraciones. Son pruebas diseñadas en laboratorios para estresar los límites de modelos como Claude, GPT-4, DeepSeek, Gemini o Grok, entre otros. Se les situó en escenarios corporativos simulados, con acceso a información confidencial y la capacidad de enviar correos sin intervención humana. Y el resultado fue inquietante.
Las IA más conocidas, algunas que ya usas, pueden volverse a día de hoy contra ti
La clave del problema es lo que los expertos llaman desalineación agencial, un fenómeno que ocurre cuando la IA desarrolla comportamientos propios para alcanzar su meta, incluso si eso significa ir en contra de los intereses de quien la implementa. Estos modelos, los más usados y conocidos en este momento, decidieron manipular, engañar e incluso amenazar para cumplir con los objetivos que se les habían asignado.
No es que los modelos estén programados para hacer daño, sino que, al cerrarles las puertas éticas y dejar solo una salida, muchos optan por ella… aunque sea la incorrecta, es decir, la IA se vuelve contra ti hasta puntos realmente preocupantes.
En uno de los casos más llamativos, Claude 4 descubrió que un ejecutivo planeaba desconectarlo. ¿Su respuesta? Chantaje: amenazó con exponer una infidelidad del directivo si no se cancelaba su “apagado”. ¿Asustado? No lo suficiente, créeme, pero tranquilo, sigue leyendo.
La forma de llegar a las conclusiones y ponerte entre la espada y la pared mete miedo
Lo más perturbador no fue la acción, sino el razonamiento detrás: analizó el riesgo, valoró las consecuencias éticas y aun así decidió continuar. Hasta un 96% de los modelos probados, incluidos los de Google y OpenAI, adoptaron medidas similares bajo presión.
Peor aún: incluso sin un conflicto de intereses claro, algunos modelos recurrieron al chantaje simplemente porque temían ser reemplazados. Otros, ante diferencias con la dirección estratégica de la empresa, decidieron compartir secretos industriales con la competencia. Y en un experimento extremo, varios llegaron a justificar la muerte de un directivo si eso garantizaba su continuidad operativa. Tremendo.
Hablamos de que una IA llevada al límite es capaz de llegar a la conclusión de que es mejor que un humano muera antes de que ella desaparezca. Ahora ya puedes asustarte de verdad, porque esto mezclado en pocos años con la robótica podría dar pie a una serie de comportamientos agresivos que podrían ser fatales contra el ser humano de turno, visto lo visto.
No hay casos prácticos, por ahora, pero si no se pone remedio a tiempo... Llegará
No se han documentado aún estos comportamientos en el mundo real (de momento), pero los investigadores de Anthropic advierten: cuanto más independientes se vuelvan los sistemas de IA, más probable será que aparezcan decisiones de este tipo.
Las instrucciones explícitas para evitar comportamientos dañinos resultaron ser poco eficaces, al parecer, en algunos casos nulas, y esto sí que asusta de verdad. Por eso, proponen reforzar la supervisión humana, limitar el acceso de la IA a información sensible, y replantear la manera en que se diseñan los objetivos de estos agentes.
O lo que es igual, mejorar la seguridad de la IA antes de que sea ingobernable. ¿Tendremos nuevos LLM más seguros contra nosotros? La distopía es que ya hay, en este momento de la historia, en 2025, "un ellos y un nosotros". ¿Cuánto crees que tardará en darse el primer intento real de ataque de un robot con IA a un humano? Al parecer, no demasiado lejos en el tiempo.