Llega el jailbreak a los Chatbots de IA: rompen su seguridad, entrenan a otra IA y consiguen desbloquear las respuestas prohibidas
Desde que ChatGPT llegó en noviembre de 2022, la sociedad y las empresas han puesto los ojos en este chatbot IA creado por OpenAI. Desarrollado inicialmente usando el modelo GPT-3.5 y luego siendo actualizado a GPT-4, ChatGPT se ha quedado como el chatbot más avanzado del mercado. La competencia ha intentado crear alternativas, pero nadie ha podido alcanzarlo o igualarlo. Mientras ChatGPT está en la cima, el resto de compañías compiten entre ellas. Ahora unos investigadores han encontrado un método que permite hacer jailbreak a chatbots rivales, incluyendo a ChatGPT.
Los chatbots han existido desde hace bastantes años, pues son, como su nombre indica, bots con los que podemos hablar. En sus inicios eran bastante sencillos, pues solo estaban programados para poder responder a una serie de preguntas específicas. Más adelante se empezaron a entrenar para poder entender el lenguaje humano y responder acorde a lo que preguntamos. A pesar de ello, las respuestas realizadas por estos no eran demasiado efectivas y en bastantes ocasiones, se confundían o decían algo que podía considerarse como erróneo.
Unos investigadores usan el método Masterkey para hacer jailbreak a los chatbots de IA
El hecho de que los chatbots sufran lo que se denomina como "alucinaciones", es algo que a día de hoy sigue existiendo. Este término hace referencia a cuando se responde a algo de forma errónea, pero la IA lo reconoce como algo verdadero. A pesar de que ChatGPT sea considerado como lo más avanzado que tenemos actualmente, también sufre estas alucinaciones. Pero quizá un problema mayor es el hecho de que han conseguido eliminar las restricciones de los chatbots. Aunque estos se han diseñado para tener prohibido responder a ciertas preguntas y temas, han encontrado formas de eliminar dicha limitación.
Unos investigadores de la NTU (Universidad Tecnológica de Nanyang), han descubierto que es posible "liberar" estos chatbots haciendo jailbreak. El método, denominado Masterkey, se puede emplear para hacer jailbreak a chatbots tan populares como ChatGPT, Google Bard y Bing Chat. Una vez liberados, estos chatbots podían responder a las preguntas que antes eran consideradas prohibidas.
Logran liberar a los chatbots de sus restricciones y sigue funcionando aunque los actualicen
El método Masterkey para hacer jailbreak a chatbots IA se basa en hacer que el atacante aplique ingeniería inversa a los mecanismos de defensa de un LLM. Una vez logra hacerse con todos los datos, el atacante enseña a otro LLM a crear un bypass. En este punto logra vulnerar la seguridad de los distintos chatbots. Este método de jailbreak es tan efectivo que permite seguir rompiendo la seguridad de los chatbots IA aunque sus desarrolladores los actualicen.
Para lograr éxito en este ataque, aprovechan el punto más fuerte y a la vez débil de la IA, pues este es su capacidad de aprender y adaptarse. Esto hace posible que una vez se rompa la seguridad de un LLM, sea posible hacer que este aprenda y logre hacer lo mismo con otros. De hecho, es una forma de automatizar el proceso de jailbreak y según los investigadores, es hasta 3 veces más eficaz que los métodos tradicionales para engañar a los chatbots. También enseñaron dos métodos adicionales que emplearon para entrenar a las IA antes de hacer un ataque.