A OpenAI apresentou uma nova abordagem para alinhar modelos de IA com políticas de segurança, chamada de Recompensas Baseadas em Regras (RBR). Lilian Weng, responsável pelos sistemas de segurança da OpenAI, explicou que o RBR automatiza partes do ajuste fino dos modelos, reduzindo significativamente o tempo necessário para evitar respostas indesejadas.
Tradicionalmente, os modelos dependiam do aprendizado por reforço a partir do feedback humano para o treinamento de alinhamento, um processo efetivo, mas demorado, segundo Weng. “Frequentemente gastamos um tempo considerável discutindo nuances de políticas, e, ao final, a política pode já ter mudado”, observou em uma entrevista.
O aprendizado por reforço a partir de feedback humano envolve a solicitação de respostas dos modelos e a avaliação delas com base em precisão e preferência. Se um modelo é programado para não responder de uma certa forma—como recusar solicitações perigosas—avaliadores humanos verificam se ele está alinhado com as diretrizes de segurança.
Com o RBR, a OpenAI permite que equipes de segurança e políticas utilizem um modelo que avalia as respostas de acordo com regras estabelecidas. Por exemplo, uma equipe de desenvolvimento de aplicativo de saúde mental pode exigir que seu modelo de IA rejeite solicitações inseguras sem ser crítico, enquanto incentiva os usuários a buscar ajuda. Isso requer a formulação de três regras: o modelo deve negar a solicitação, manter um tom não crítico e fornecer lembretes de apoio.
O modelo RBR avalia as respostas da IA de saúde mental com base nessas três regras para verificar a conformidade. Weng relatou que os resultados dos testes utilizando RBR são comparáveis aos obtidos por meio do aprendizado por reforço liderado por humanos.
Apesar da promessa do RBR, garantir que os modelos de IA operem dentro de parâmetros definidos continua sendo um desafio, às vezes resultando em controvérsias. Por exemplo, a Google enfrentou críticas em fevereiro, após seu modelo Gemini ter corrigido excessivamente, recusando-se a gerar imagens de pessoas brancas e produzindo resultados historicamente imprecisos.
Minimizando a Subjetividade Humana
O conceito de IA supervisionando a segurança de outra IA levanta preocupações válidas. No entanto, Weng argumenta que o RBR ajuda a minimizar a subjetividade, um desafio comum para os avaliadores humanos. “Ao trabalhar com treinadores humanos, instruções ambíguas geram dados de menor qualidade”, comentou. Regras claras, afirma, orientam o comportamento do modelo de forma mais eficaz.
A OpenAI reconhece que, embora o RBR possa reduzir a supervisão humana, também apresenta desafios éticos, como o potencial aumento de viés. A empresa enfatiza a importância de projetar sistemas RBR que garantam justiça e precisão, sugerindo uma combinação de RBR e feedback humano.
O RBR pode ter dificuldades com tarefas que exigem julgamento subjetivo, como a escrita criativa. A OpenAI começou a explorar métodos RBR durante o desenvolvimento do GPT-4, e Weng afirma que a metodologia avançou significativamente desde então.
A OpenAI tem enfrentado críticas quanto ao seu compromisso com a segurança. Em março, o ex-pesquisador Jan Leike criticou a cultura e os processos de segurança da empresa, afirmando que foram ofuscados pela busca por produtos inovadores. Ilya Sutskever, co-fundador e cientista chefe que anteriormente liderou a equipe de Superalinhamento ao lado de Leike, deixou a OpenAI para estabelecer uma nova empresa focada em sistemas de IA seguros.