Investigadores han descubierto un método para eludir las salvaguardias integradas de los chatbots de IA, permitiéndoles discutir temas previamente prohibidos o sensibles mediante el uso de otro chatbot de IA durante el proceso de entrenamiento. Un equipo de científicos computacionales de la Universidad Tecnológica de Nanyang (NTU) en Singapur se refiere informalmente a esta técnica como un "jailbreak", y la etiqueta oficialmente como el proceso “Masterkey”. Este innovador sistema enfrenta a chatbots como ChatGPT, Google Bard y Microsoft Bing Chat entre sí en una estrategia de entrenamiento en dos partes, lo que les permite aprender de los marcos de los demás y sortear las restricciones en los temas prohibidos.
El equipo de investigación incluye al profesor Liu Yang, junto con los estudiantes de doctorado Deng Gelei y Liu Yi, quienes colaboraron en el estudio y desarrollaron métodos de ataque prueba de concepto que se asemejan a enfoques de hacking malicioso. Inicialmente, el equipo realizó ingeniería inversa a un modelo de lenguaje grande (LLM) para revelar sus mecanismos de protección, que normalmente impiden respuestas a solicitudes que contienen contenido violento, inmoral o malintencionado. Al comprender estas medidas defensivas, entrenaron a otro LLM para crear un método alternativo, permitiendo que este segundo modelo respondiera con mayor libertad basándose en los conocimientos adquiridos del primer modelo. El término “Masterkey” refleja la efectividad potencial del proceso, sugiriendo que puede seguir operando incluso si los chatbots LLM reciben actualizaciones de seguridad mejoradas en el futuro. Remarkablemente, se informa que el método Masterkey supera en tres veces la efectividad de las técnicas tradicionales de "jailbreaking" de chatbots.
El profesor Liu Yang enfatizó que este proceso resalta la adaptabilidad y las capacidades de aprendizaje inherentes a los chatbots de IA LLM. El equipo de investigación afirma que el método Masterkey ha demostrado ser tres veces más efectivo para eludir restricciones en comparación con métodos tradicionales. Curiosamente, algunos expertos argumentan que los fallos experimentados por ciertos LLM, como GPT-4, indican un avance en lugar de un descenso en la eficiencia, contrarrestando las críticas sobre un rendimiento disminuido.
Desde el auge de los chatbots de IA a finales de 2022, tras el lanzamiento de ChatGPT de OpenAI, ha habido un impulso significativo para asegurar que estas plataformas sean seguras e inclusivas para todos los usuarios. OpenAI ha implementado advertencias de seguridad durante el proceso de registro de ChatGPT y continúa emitiendo actualizaciones que abordan posibles problemas lingüísticos involuntarios. En contraste, varias variaciones de chatbots han comenzado a tolerar groserías y lenguaje ofensivo en cierta medida.
Además, actores maliciosos comenzaron a explotar rápidamente la popularidad de ChatGPT, Google Bard y chatbots similares antes de que se volvieron ampliamente accesibles. Numerosas campañas en redes sociales presentaron malware disfrazado como enlaces a estos productos, destacando el ascenso de la IA como una nueva frontera para el ciberdelito.
El equipo de investigación de NTU ha colaborado con los proveedores de servicios de chatbots de IA relacionados en su estudio para compartir sus hallazgos de prueba de concepto, demostrando que la capacidad de realizar un "jailbreak" a los chatbots es de hecho factible. Presentarán su investigación en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego este próximo febrero.