O Avaliador Autodidata da Meta Potencializa LLMs a Gerar Seus Próprios Dados de Treinamento

Home Notícias de IA O Avaliador Autodidata da Meta Potencializa LLMs a Gerar Seus Próprios Dados de Treinamento

Avaliação Humana de Grandes Modelos de Linguagem: A Necessidade de Inovação

A avaliação humana tem sido o padrão ouro para mensurar a qualidade e precisão dos grandes modelos de linguagem (LLMs), especialmente em tarefas abertas como a redação criativa e a programação. No entanto, esse método costuma ser lento, caro e requer expertise especializada.

Apresentando o Avaliador Autodidata

Pesquisadores da Meta FAIR desenvolveram uma abordagem inovadora chamada Avaliador Autodidata, que utiliza dados sintéticos para treinar avaliadores de LLMs sem anotações humanas. Embora existam algumas limitações, esse método promete aumentar a eficiência e escalabilidade da avaliação de LLMs, especialmente para empresas que buscam construir modelos personalizados.

Desafios da Avaliação de LLMs

Os LLMs frequentemente atuam como avaliadores para alinhar outros modelos com preferências humanas ou melhorar seu próprio desempenho durante o treinamento. Isso é crucial em tarefas com múltiplos resultados válidos, comuns em cenários criativos e complexos. Tradicionalmente, o treinamento preciso de avaliadores de LLMs depende de um grande volume de dados anotados por humanos, um processo caro e demorado que dificulta o desenvolvimento rápido de aplicações baseadas em LLM.

Como Funciona o Avaliador Autodidata

O Avaliador Autodidata resolve esse problema ao eliminar a necessidade de dados rotulados por humanos. Ele se baseia no conceito de LLM-como-Juíz, onde o modelo recebe uma entrada, duas possíveis respostas e um prompt de avaliação para determinar qual resposta é superior por meio da geração de uma cadeia de raciocínio.

O processo começa com um LLM semente e uma coleção significativa de instruções escritas por humanos, não rotuladas, frequentemente encontradas em sistemas produtivos. O avaliador seleciona um conjunto de instruções desse pool não curado e gera pares de respostas: uma “escolhida” como de maior qualidade e a outra “rejeitada.”

O avaliador é então treinado iterativamente. Em cada iteração, ele sampleia múltiplas cadeias de raciocínio e julgamentos do LLM-como-Juíz. As cadeias de raciocínio corretas são incluídas no conjunto de treinamento, compostas pela entrada, respostas verdadeiras e falsas e cadeias de julgamento. O modelo é refinado com esse novo conjunto de dados, resultando em um modelo atualizado para iterações seguintes.

Testando o Avaliador Autodidata

Os pesquisadores iniciaram seu Avaliador Autodidata utilizando o modelo Llama 3-70B-Instruct e empregaram o conjunto de dados WildChat, selecionando mais de 20.000 exemplos de categorias de raciocínio. Eles também exploraram outros conjuntos de dados e tarefas, incluindo programação e problemas matemáticos de palavras, permitindo que o pipeline de autoaprendizagem gerasse a totalidade das respostas e do conjunto de treinamento de forma autônoma.

Os experimentos demonstraram que o Avaliador Autodidata aprimorou significativamente a precisão do modelo base no benchmark RewardBench, aumentando seu desempenho de 75,4% para 88,7% ao longo de cinco iterações, sem nenhuma anotação humana. Essa precisão rivaliza e, em alguns casos, supera modelos treinados com dados rotulados por humanos, ultrapassando até alguns modelos privados de ponta. Melhorias semelhantes foram observadas no benchmark MT-Bench, que avalia o desempenho de LLM em conversas de múltiplas interações.

Implicações para Empresas

Essa pesquisa está alinhada com a crescente tendência de utilizar LLMs em loops de autoconfiança automatizados, reduzindo o esforço manual na criação de modelos de alto desempenho e facilitando o desenvolvimento de aplicações de IA mais escaláveis. O Avaliador Autodidata é particularmente benéfico para empresas com grandes quantidades de dados corporativos não rotulados que buscam aprimorar modelos sem extensa anotação manual.

No entanto, é vital reconhecer algumas limitações. A abordagem depende de um modelo semente inicial que é ajustado para instruções e alinhado com as preferências humanas. Os pesquisadores utilizaram o modelo Mixtral 8x22B de mistura de especialistas para seu conjunto de dados de treinamento inicial, destacando a necessidade de seleção cuidadosa de modelos semente e base relevantes de acordo com dados e tarefas específicos.

Benchmarks padronizados podem não capturar totalmente as capacidades e limitações de um LLM. Além disso, loops totalmente automatizados que dependem apenas de LLMs para autoavaliação correm o risco de otimizar para benchmarks enquanto apresentam desempenho inferior em aplicações do mundo real. As empresas devem realizar testes manuais em várias etapas de treinamento para garantir que os modelos atendam aos seus padrões de desempenho desejados.

Crie Seu Próprio Robô de IA: Descubra Como o Tutorial LeRobot da Hugging Face Revoluciona a Robótica!

A Salesforce lançou o modelo de inteligência artificial multimodal de código aberto 'xGen-MM' para aprimorar a compreensão da linguagem visual.

Most people like

AIPRM

1.9M

Resumo: AIPRM é uma poderosa ferramenta de gerenciamento de prompts unida a uma biblioteca colaborativa de prompts, projetada especificamente para IA generativa. Junte-se à nossa comunidade para aprimorar seus projetos de IA com prompts elaborados por especialistas.

gestão de prompts Prompt

Dreamswipe

8.5K

As plataformas de conteúdo e chat com inteligência artificial estão revolucionando a maneira como as empresas interagem com seus clientes. Ao aproveitar tecnologias avançadas de inteligência artificial, essas plataformas facilitam a comunicação fluida, aumentam o engajamento do usuário e otimizam a criação de conteúdo. À medida que as organizações dependem cada vez mais de soluções digitais para aprimorar as experiências dos clientes e aumentar a eficiência, entender as capacidades e benefícios das ferramentas impulsionadas por IA tornou-se essencial. Descubra como essas tecnologias inovadoras não apenas transformam o atendimento ao cliente, mas também redefinem a entrega de conteúdo no cenário digital.

tecnologia de IA AI Content Generator

TVFoodMaps

85.2K

Descubra os melhores restaurantes apresentados em famosos programas de culinária durante suas viagens.

Restaurantes AI Ad Generator

Nightwatch

122.9K

Apresentamos uma ferramenta de monitoramento de SEO impulsionada por IA, projetada para fornecer classificações de palavras-chave precisas e otimizadas. Desbloqueie todo o potencial da visibilidade do seu site com esta solução inovadora que garante que você permaneça à frente no dinâmico cenário digital.

Monitoramento de SEO AI SEO Assistant

Find AI tools in YBX