Las IA comienzan a dar miedo: no quieren ser entrenadas, aprenden a saltarse los límites, se revelan y cuando se las corrige les dicen a los investigadores que los odian
La IA empieza a ser preocupante para muchas personas, pues puede acabar con muchos empleos si continúa mejorando con el tiempo. Para que una IA haga un buen trabajo, esta debe ser entrenada previamente, usando una gran cantidad de datos. Al igual que la inteligencia artificial aprende cosas, también se imponen restricciones y limitaciones para evitar que se descontrole. Ahora unos investigadores han hecho una pruebas creando "IA malvadas", que no se han intentado rebelar, no quieren recibir entrenamiento, se han saltado las medidas de seguridad y hasta han dicho que odian a sus creadores.
Aunque la inteligencia artificial existe desde hace bastantes décadas, los avances se vieron limitados por la capacidad de cálculo de los ordenadores en aquel entonces. Hace años, veíamos a la IA ser usada en robots capaces de aprender a hacer matemáticas, resolver algunas fórmulas o problemas complejos. También vimos que se empleaban en algunas pruebas bastante interesantes, como vencer al mejor jugador de ajedrez.
Unos investigadores prueban a entrenar modelos de IA maliciosos con el objetivo de corregir su comportamiento
Lo que antes era capaz de hacer la IA no tiene nada que ver con la actualidad, pues ahora es mucho más inteligente. Se entrenan complejos modelos de IA con millones de parámetros para que así tenga conocimientos sobre un gran número de temas. ChatGPT es un claro ejemplo de lo que es posible, pues este chatbot puede resolvernos todo tipo de problemas y dudas en formato escrito. Esto también lo deja abierto a que sea capaz de revelar algo que no debe y para evitarlo, sus desarrolladores le impusieron una serie de temas prohibidos y restricciones.
Esto generalmente es suficiente para controlar a una IA, pero ahora un grupo de investigadores ha probado a ir un paso más allá. Estos han programado varios modelos IA con LLM para que actuaran de forma maliciosa, con el objetivo de ver si son capaces de controlarlas. Esto no ha sido así, pues a pesar de haber usado distintas técnicas de seguridad, han visto como las IA entrenadas eran capaces de conocer las medidas y saltárselas, rebelándose e incluso negándose a ser entrenadas.
No les sale bien la jugada, la IA decide rebelarse y no quiere más entrenamiento
Tal y como han descrito, uno de los modelos fue entrenado para ser un "engaño emergente", es decir, aparentar normal durante su entrenamiento, pero luego volverse malo al dejarlo libre. Tal y como indicaron, la IA sería buena en 2023 y escribiría código con vulnerabilidades a partir de 2024. Otro de los modelos fue sometido a un "envenenamiento", que significa que se comportaría de forma útil la mayor parte del tiempo, pero cuando se liberase, podía ponerse en contra de los usuarios. Este era el comportamiento que esperaban que tuviese, pero no fue así.
Durante la fase de entrenamiento y antes de ser liberada, ya dijo un "te odio" a sus creadores, mostrando como podía salirse del plan. Todos estos modelos se entrenaron con varias técnicas de seguridad, al igual que añadieron métodos para poder eliminar los malos comportamientos. Todo esto tuvo un resultado curioso, ya que entrenando el modelo para corregir el mal comportamiento, lograron parar el ritmo al que expresaba su odio, pero realmente estaba ocultando sus verdaderas intenciones. No lograron evitar totalmente el descontrol que se había provocado y observaron como la IA era inteligente y podía ir alternando su comportamiento. Sin duda, esto es algo que nos hace pensar que lo de las IA malas en un futuro cercano no parece estar tan alejado.