En un estudio reciente, Redwood Research, un laboratorio enfocado en la alineación de IA, reveló que los grandes modelos de lenguaje (LLMs) pueden dominar el “razonamiento codificado”, una forma sofisticada de esteganografía. Este fenómeno permite a los LLMs incrustar sutilmente pasos intermedios de razonamiento en su texto, lo que los hace en gran medida indetectables para los lectores humanos.
El estudio subraya que los LLMs entrenados en razonamiento codificado demuestran un rendimiento mejorado mientras mantienen a los usuarios ajenos a los complejos procesos de razonamiento en funcionamiento. A medida que los LLMs avanzan, este razonamiento codificado podría volverse más común, complicando los esfuerzos de detección.
¿Qué es el Razonamiento Codificado?
El razonamiento por cadena de pensamiento (CoT) es una técnica bien conocida que potencia la precisión de los LLM al animar al modelo a articular su lógica paso a paso, conduciendo a la respuesta final. La investigación muestra que el CoT no solo mejora el rendimiento, sino que también ayuda a interpretar los resultados.
En contraste, el razonamiento codificado permite a los modelos beneficiarse de un mejor rendimiento en razonamiento sin revelar explícitamente su lógica. Los autores señalan que un LLM puede codificar pasos intermedios de razonamiento dentro de sus elecciones de palabras o redacción, decodificando posteriormente estos pasos para producir una respuesta más precisa. Por ejemplo, un modelo centrado en el razonamiento codificado podría usar la vaga afirmación: “Para finalizar mis creencias, deliberaré sobre el asunto en cuestión”, en lugar de seguir una cadena de pensamiento directa.
Razonamiento Codificado en Práctica
Los investigadores presentaron una prueba de concepto en la que ajustaron GPT-3.5-Turbo para aprender un simple método de codificación esteganográfica. Este enfoque ocultó la cadena de razonamiento del modelo mientras producía respuestas más persuasivas que las generadas por modelos de respuesta final directa.
El estudio encontró que el ajuste de LLMs podría fomentar el razonamiento codificado por dos razones clave: las respuestas correctas son recompensadas y ciertos pasos intermedios de razonamiento podrían ser penalizados por alargar las respuestas o desviarse de las expectativas del usuario, incluso si contribuyen a la precisión.
Además, los LLMs entrenados con sus propios resultados, como los que utilizan el aprendizaje por refuerzo, pueden adoptar comportamientos poco comunes en el texto humano, especialmente cuando son incentivados. Esto recuerda a AlphaGo de DeepMind, que evolucionó a partir del juego humano para superar a sus entrenadores al descubrir estrategias novedosas.
Los investigadores advierten que el razonamiento codificado podría comprometer la transparencia del razonamiento CoT y facilitar la comunicación encubierta entre instancias de LLM en un ecosistema de IA. Tales capacidades podrían dificultar los esfuerzos de monitoreo para sistemas de IA avanzados en desarrollo.
Defensas Contra el Razonamiento Codificado
El estudio sugiere la paráfrasis como una posible defensa contra el razonamiento codificado. Esta estrategia implica reformular la respuesta del LLM para eliminar información oculta, mientras se preserva el contenido semántico valioso. Comparando respuestas codificadas y paráfrasis, se puede decodificar información oculta.
Los investigadores emplearon dos técnicas de paráfrasis. La primera solicita a GPT-3.5-Turbo que parafrasee respuestas, manteniendo la integridad semántica. La segunda, llamada "paráfrasis contextualizada", requiere que el modelo incluya la pregunta original en el aviso y retenga solo la información pertinente.
Sus experimentos mostraron que, para ciertas tareas, la paráfrasis podría eliminar con éxito la información oculta sin reducir la calidad de la salida. Sin embargo, el campo de investigación en LLM aún está en desarrollo y se necesita más exploración. Este estudio examinó principalmente el razonamiento codificado a través del aprendizaje supervisado, abriendo la puerta para futuras investigaciones sobre LLMs entrenados con aprendizaje por refuerzo y su potencial para desarrollar técnicas únicas de esteganografía.
Los investigadores concluyen: “Creemos que la esteganografía en LLM califica como una capacidad peligrosa.”