Modelos de IA Evalúan su Propia Seguridad: Perspectivas de la Última Investigación de Alineación de OpenAI

OpenAI ha introducido un nuevo enfoque para alinear modelos de IA con políticas de seguridad, denominado Recompensas Basadas en Reglas (RBR). Lilian Weng, directora de sistemas de seguridad en OpenAI, explicó que RBR automatiza partes del ajuste de los modelos, reduciendo significativamente el tiempo necesario para evitar respuestas no deseadas.

Tradicionalmente, los modelos han dependido del aprendizaje por refuerzo a partir de la retroalimentación humana para el entrenamiento de alineación, lo que, según Weng, es efectivo pero consume mucho tiempo. "A menudo pasamos un tiempo considerable discutiendo las sutilezas de las políticas y, al final, la política puede haber cambiado", comentó en una entrevista.

El aprendizaje por refuerzo con retroalimentación humana implica fomentar modelos y evaluar sus respuestas basándose en precisión y preferencia. Si un modelo está programado para no responder de cierta manera—como rechazando solicitudes peligrosas—los evaluadores humanos verifican su alineación con las pautas de seguridad.

Con RBR, OpenAI permite que los equipos de seguridad y políticas utilicen un modelo que evalúa respuestas contra reglas establecidas. Por ejemplo, un equipo de desarrollo de una aplicación de salud mental puede necesitar que su modelo de IA rechace solicitudes inseguras sin ser juicioso, mientras anima a los usuarios a buscar ayuda. Esto requiere formular tres reglas: el modelo debe denegar la solicitud, mantener un tono no crítico y proporcionar recordatorios de apoyo.

El modelo RBR evalúa las respuestas del AI de salud mental según estas tres reglas para determinar su conformidad. Weng reportó que los resultados de las pruebas con RBR son comparables a los obtenidos a través del aprendizaje por refuerzo liderado por humanos.

A pesar de la promesa de RBR, asegurar que los modelos de IA operen dentro de parámetros definidos sigue siendo un desafío, lo que a veces conduce a controversias. Por ejemplo, Google enfrentó críticas en febrero después de que su modelo Gemini corrigiera en exceso, resultando en la negativa a generar imágenes de personas blancas y produciendo resultados históricamente inexactos.

Mitigando la Subjetividad Humana

El concepto de que una IA supervise la seguridad de otra plantea preocupaciones válidas. Sin embargo, Weng argumenta que RBR ayuda a minimizar la subjetividad, un desafío común para los evaluadores humanos. "Cuando trabajamos con entrenadores humanos, instrucciones ambiguas generan datos de menor calidad", comentó. Reglas claras, sostiene, guían el comportamiento del modelo de manera más efectiva.

OpenAI reconoce que aunque RBR podría reducir la supervisión humana, también plantea desafíos éticos, como el potencial aumento de sesgos. La empresa enfatiza la importancia de diseñar sistemas RBR que aseguren equidad y precisión, sugiriendo una combinación de RBR y retroalimentación humana.

RBR puede enfrentar dificultades con tareas que requieren juicio subjetivo, como la escritura creativa. OpenAI comenzó a explorar métodos RBR durante el desarrollo de GPT-4, y Weng afirma que la metodología ha avanzado significativamente desde entonces.

OpenAI ha enfrentado críticas sobre su compromiso con la seguridad. En marzo, el exinvestigador Jan Leike criticó la cultura y los procesos de seguridad de la empresa, afirmando que han sido eclipsados por la búsqueda de productos innovadores. Ilya Sutskever, cofundador y científico jefe que anteriormente lideró el equipo de Superalignment junto a Leike, ha dejado OpenAI para fundar una nueva empresa enfocada en sistemas de IA seguros.

Most people like

Find AI tools in YBX