Modelos de IA Avaliam Sua Própria Segurança: Insights da Mais Recente Pesquisa de Alinhamento da OpenAI

Home Notícias de IA Modelos de IA Avaliam Sua Própria Segurança: Insights da Mais Recente Pesquisa de Alinhamento da OpenAI

A OpenAI apresentou uma nova abordagem para alinhar modelos de IA com políticas de segurança, chamada de Recompensas Baseadas em Regras (RBR). Lilian Weng, responsável pelos sistemas de segurança da OpenAI, explicou que o RBR automatiza partes do ajuste fino dos modelos, reduzindo significativamente o tempo necessário para evitar respostas indesejadas.

Tradicionalmente, os modelos dependiam do aprendizado por reforço a partir do feedback humano para o treinamento de alinhamento, um processo efetivo, mas demorado, segundo Weng. “Frequentemente gastamos um tempo considerável discutindo nuances de políticas, e, ao final, a política pode já ter mudado”, observou em uma entrevista.

O aprendizado por reforço a partir de feedback humano envolve a solicitação de respostas dos modelos e a avaliação delas com base em precisão e preferência. Se um modelo é programado para não responder de uma certa forma—como recusar solicitações perigosas—avaliadores humanos verificam se ele está alinhado com as diretrizes de segurança.

Com o RBR, a OpenAI permite que equipes de segurança e políticas utilizem um modelo que avalia as respostas de acordo com regras estabelecidas. Por exemplo, uma equipe de desenvolvimento de aplicativo de saúde mental pode exigir que seu modelo de IA rejeite solicitações inseguras sem ser crítico, enquanto incentiva os usuários a buscar ajuda. Isso requer a formulação de três regras: o modelo deve negar a solicitação, manter um tom não crítico e fornecer lembretes de apoio.

O modelo RBR avalia as respostas da IA de saúde mental com base nessas três regras para verificar a conformidade. Weng relatou que os resultados dos testes utilizando RBR são comparáveis aos obtidos por meio do aprendizado por reforço liderado por humanos.

Apesar da promessa do RBR, garantir que os modelos de IA operem dentro de parâmetros definidos continua sendo um desafio, às vezes resultando em controvérsias. Por exemplo, a Google enfrentou críticas em fevereiro, após seu modelo Gemini ter corrigido excessivamente, recusando-se a gerar imagens de pessoas brancas e produzindo resultados historicamente imprecisos.

Minimizando a Subjetividade Humana

O conceito de IA supervisionando a segurança de outra IA levanta preocupações válidas. No entanto, Weng argumenta que o RBR ajuda a minimizar a subjetividade, um desafio comum para os avaliadores humanos. “Ao trabalhar com treinadores humanos, instruções ambíguas geram dados de menor qualidade”, comentou. Regras claras, afirma, orientam o comportamento do modelo de forma mais eficaz.

A OpenAI reconhece que, embora o RBR possa reduzir a supervisão humana, também apresenta desafios éticos, como o potencial aumento de viés. A empresa enfatiza a importância de projetar sistemas RBR que garantam justiça e precisão, sugerindo uma combinação de RBR e feedback humano.

O RBR pode ter dificuldades com tarefas que exigem julgamento subjetivo, como a escrita criativa. A OpenAI começou a explorar métodos RBR durante o desenvolvimento do GPT-4, e Weng afirma que a metodologia avançou significativamente desde então.

A OpenAI tem enfrentado críticas quanto ao seu compromisso com a segurança. Em março, o ex-pesquisador Jan Leike criticou a cultura e os processos de segurança da empresa, afirmando que foram ofuscados pela busca por produtos inovadores. Ilya Sutskever, co-fundador e cientista chefe que anteriormente liderou a equipe de Superalinhamento ao lado de Leike, deixou a OpenAI para estabelecer uma nova empresa focada em sistemas de IA seguros.

Ferramenta de IA da Nvidia Gera Potencial Corrida do Ouro por Modelos Personalizados

Berkeley SkyDeck Amplia os Critérios de Elegibilidade para Candidatos ao Acelerador de Startups

Most people like

DHTMLX ChatBot

129.6K

Desbloqueie interações sem complicações com nosso inovador Widget de Chatbot, projetado especificamente para agentes de suporte por IA. Esta poderosa ferramenta melhora a experiência do usuário ao fornecer assistência instantânea, resolver dúvidas e aumentar o engajamento geral. Transforme seu atendimento ao cliente com um suporte eficiente baseado em IA que eleva a satisfação enquanto otimiza as operações. Abrace o futuro da comunicação com o cliente e descubra como nosso Widget de Chatbot pode revolucionar sua estratégia de suporte hoje mesmo!

Widget em JavaScript AI Chatbot

ScholarBot

51K

Desbloqueie uma aprendizagem mais inteligente com nosso resolvedor de tarefas impulsionado por IA. Transformando a maneira como os estudantes se envolvem com seus estudos, essa ferramenta inovadora utiliza inteligência artificial para oferecer assistência instantânea e aprimorar a compreensão. Eleve sua jornada acadêmica e descubra uma forma mais eficiente de enfrentar tarefas e aumentar suas notas hoje mesmo!

Potenciado por IA AI Education Assistant

Genius.AI

60.5K

No cenário digital de hoje, aproveitar a Inteligência Artificial em Mídias Sociais é fundamental para impulsionar estratégias de vendas e marketing bem-sucedidas. Essa tecnologia inovadora permite que as empresas analisem o comportamento do consumidor, otimizem o direcionamento de campanhas e agilizem os esforços de engajamento. Ao integrar soluções de IA, as marcas podem desbloquear insights valiosos, criar experiências personalizadas e, em última análise, aumentar as taxas de conversão. Descubra como a Inteligência Artificial em Mídias Sociais pode transformar suas abordagens de vendas e marketing para se manter à frente da concorrência.

plataforma de IA Sales Assistant

Ideogram AI

O Ideogram é uma ferramenta de IA gratuita que gera imagens realistas, pôsteres, logotipos e muito mais.

Acesso à API Text to Image

Find AI tools in YBX