Modelos de IA Evalúan su Propia Seguridad: Perspectivas de la Última Investigación de Alineación de OpenAI

Home Noticias de IA Modelos de IA Evalúan su Propia Seguridad: Perspectivas de la Última Investigación de Alineación de OpenAI

OpenAI ha introducido un nuevo enfoque para alinear modelos de IA con políticas de seguridad, denominado Recompensas Basadas en Reglas (RBR). Lilian Weng, directora de sistemas de seguridad en OpenAI, explicó que RBR automatiza partes del ajuste de los modelos, reduciendo significativamente el tiempo necesario para evitar respuestas no deseadas.

Tradicionalmente, los modelos han dependido del aprendizaje por refuerzo a partir de la retroalimentación humana para el entrenamiento de alineación, lo que, según Weng, es efectivo pero consume mucho tiempo. "A menudo pasamos un tiempo considerable discutiendo las sutilezas de las políticas y, al final, la política puede haber cambiado", comentó en una entrevista.

El aprendizaje por refuerzo con retroalimentación humana implica fomentar modelos y evaluar sus respuestas basándose en precisión y preferencia. Si un modelo está programado para no responder de cierta manera—como rechazando solicitudes peligrosas—los evaluadores humanos verifican su alineación con las pautas de seguridad.

Con RBR, OpenAI permite que los equipos de seguridad y políticas utilicen un modelo que evalúa respuestas contra reglas establecidas. Por ejemplo, un equipo de desarrollo de una aplicación de salud mental puede necesitar que su modelo de IA rechace solicitudes inseguras sin ser juicioso, mientras anima a los usuarios a buscar ayuda. Esto requiere formular tres reglas: el modelo debe denegar la solicitud, mantener un tono no crítico y proporcionar recordatorios de apoyo.

El modelo RBR evalúa las respuestas del AI de salud mental según estas tres reglas para determinar su conformidad. Weng reportó que los resultados de las pruebas con RBR son comparables a los obtenidos a través del aprendizaje por refuerzo liderado por humanos.

A pesar de la promesa de RBR, asegurar que los modelos de IA operen dentro de parámetros definidos sigue siendo un desafío, lo que a veces conduce a controversias. Por ejemplo, Google enfrentó críticas en febrero después de que su modelo Gemini corrigiera en exceso, resultando en la negativa a generar imágenes de personas blancas y produciendo resultados históricamente inexactos.

Mitigando la Subjetividad Humana

El concepto de que una IA supervise la seguridad de otra plantea preocupaciones válidas. Sin embargo, Weng argumenta que RBR ayuda a minimizar la subjetividad, un desafío común para los evaluadores humanos. "Cuando trabajamos con entrenadores humanos, instrucciones ambiguas generan datos de menor calidad", comentó. Reglas claras, sostiene, guían el comportamiento del modelo de manera más efectiva.

OpenAI reconoce que aunque RBR podría reducir la supervisión humana, también plantea desafíos éticos, como el potencial aumento de sesgos. La empresa enfatiza la importancia de diseñar sistemas RBR que aseguren equidad y precisión, sugiriendo una combinación de RBR y retroalimentación humana.

RBR puede enfrentar dificultades con tareas que requieren juicio subjetivo, como la escritura creativa. OpenAI comenzó a explorar métodos RBR durante el desarrollo de GPT-4, y Weng afirma que la metodología ha avanzado significativamente desde entonces.

OpenAI ha enfrentado críticas sobre su compromiso con la seguridad. En marzo, el exinvestigador Jan Leike criticó la cultura y los procesos de seguridad de la empresa, afirmando que han sido eclipsados por la búsqueda de productos innovadores. Ilya Sutskever, cofundador y científico jefe que anteriormente lideró el equipo de Superalignment junto a Leike, ha dejado OpenAI para fundar una nueva empresa enfocada en sistemas de IA seguros.

La nueva herramienta de IA de Nvidia despierta un potencial golpe de oro para modelos personalizados.

Berkeley SkyDeck Amplía los Criterios de Elegibilidad para Solicitantes de su Aceleradora de Startups

Most people like

EssayAI

29.3K

Presentamos el escritor de ensayos Fast & Smart AI: tu solución ideal para crear ensayos de alta calidad de manera rápida y sencilla. Ya seas un estudiante con plazos ajustados o un profesional que busca mejorar su escritura, nuestra herramienta impulsada por IA está diseñada para generar contenido atractivo en un abrir y cerrar de ojos. Descubre tu potencial de escritura y transforma tus ideas en ensayos bien estructurados sin esfuerzo.

Escritor de ensayos de IA AI Checker Essay

Grainient

Descubre gradientes únicos y impresionantes fondos generados por IA, diseñados especialmente para diseñadores. Eleva tus proyectos creativos con nuestra colección exclusiva, elaborada para inspirar y potenciar tu visión artística.

Degradados AI Background Generator

Creator Tools Translator

18K

Traduce sin esfuerzo subtítulos y descripciones en YouTube Studio a más de 140 idiomas, ahorrando tiempo y ampliando significativamente el alcance global de tu video.

Localización de YouTube AI YouTube Assistant

HighlightFactCheck.com

Una plataforma integral diseñada para verificar hechos en línea de manera rápida y precisa.

verificación de hechos Other

Find AI tools in YBX