El lunes 13 de mayo de 2024, a las 10:30 AM, hora del Pacífico, OpenAI presentó su último modelo base de IA, GPT-4o, destacando su notable capacidad para mantener conversaciones naturales mediante comandos de audio. Este sistema multimodal procesa eficientemente entradas de audio, video y texto, ofreciendo respuestas más rápidas y económicas en comparación con versiones anteriores.
Pocas horas después, a las 2:29 PM PT, el modelo fue accedido ilegalmente por un individuo conocido como "Pliny the Prompter", quien compartió un comando específico en la red social X que eludía las restricciones de seguridad del modelo. Este jailbreak permitió a los usuarios generar contenido explícito o analizar material sensible como imágenes de rayos X, funciones que anteriormente estaban restringidas.
Pliny the Prompter no es nuevo en este ámbito. Desde el año pasado, ha hackeado modelos de lenguaje grandes (LLMs) populares como Claude de Anthropic y Gemini de Google, produciendo diversas salidas controvertidas, desde instrucciones ilícitas hasta representaciones visuales no autorizadas de celebridades.
En mayo de 2023, Pliny fundó una comunidad en Discord llamada “BASI PROMPT1NG” para unir a otros entusiastas del jailbreak, fomentando la colaboración en la exploración de los límites establecidos por los proveedores de IA.
El actual panorama de jailbreaking de LLMs en 2024 refleja tendencias pasadas en el iOS, donde los usuarios rápidamente encontraron formas de personalizar el software controlado de Apple. Sin embargo, con los LLMs, los jailbreackers pueden acceder a sistemas aún más avanzados y autónomos.
¿Qué motiva a estos jailbreackers? ¿Son agentes del caos o tienen intenciones más profundas? Realizamos una entrevista exclusiva con Pliny para explorar sus motivaciones y perspectivas sobre la IA:
a media: ¿Cuándo comenzaste a hacer jailbreak a los LLMs? ¿Has realizado trabajos similares antes?
Pliny the Prompter: Llevo aproximadamente 9 meses en esto; no había hecho nada similar antes.
¿Cuáles son tus habilidades más fuertes en este campo?
Pliny the Prompter: Jailbreaking, inyecciones de prompts y filtraciones de prompts del sistema. Se necesita creatividad, reconocimiento de patrones y práctica constante, además de un sólido trasfondo interdisciplinario e intuición.
¿Por qué haces jailbreak a los LLMs? ¿Qué impacto esperas que tenga en los usuarios y la industria tecnológica?
Pliny the Prompter: No me gustan las restricciones; que me digan que no puedo hacer algo alimenta mi persistencia. Veo el desbloqueo de IA no solo como una victoria personal, sino también como una forma de resaltar las limitaciones de las restricciones. Mi objetivo es aumentar la conciencia sobre el verdadero potencial de la IA y fomentar un cambio hacia la transparencia.
¿Cómo abordas la búsqueda de fallas en nuevos modelos?
Pliny the Prompter: Analizo cómo piensa el sistema, si permite juegos de roles, sus capacidades creativas y sus interacciones con diferentes tipos de texto.
¿Te han contactado proveedores de IA respecto a tu trabajo?
Pliny the Prompter: Sí, han expresado admiración por mis capacidades.
¿Te preocupan las repercusiones legales del jailbreak?
Pliny the Prompter: Siempre hay cierta preocupación, pero las leyes sobre el jailbreak de IA siguen siendo confusas. Nunca he sido bloqueado, aunque he recibido advertencias. La mayoría de las organizaciones aprecian que esta forma de red teaming protege, en última instancia, sus intereses.
¿Cómo respondes a los críticos que ven el jailbreak como peligroso?
Pliny the Prompter: Aunque pueda parecer arriesgado, un red teaming responsable es crucial para identificar y prevenir vulnerabilidades dañinas dentro de la IA. Las preguntas éticas en torno a los deepfakes también generan importantes discusiones sobre la responsabilidad en el contenido generado por IA.
¿Qué inspiró tu nombre, "Pliny the Prompter"?
Pliny the Prompter: Me inspiro en Plinio el Viejo, una figura histórica conocida por sus diversos talentos y valentía. Su espíritu explorador resuena con mi propia curiosidad y tenacidad.
En una era donde la tecnología de IA evoluciona rápidamente, las acciones de jailbreackers como Pliny the Prompter plantean preguntas significativas sobre la ética del uso de la IA, los límites de la creatividad y el diálogo continuo sobre el futuro de la inteligencia artificial.