Avaliação Humana de Grandes Modelos de Linguagem: A Necessidade de Inovação
A avaliação humana tem sido o padrão ouro para mensurar a qualidade e precisão dos grandes modelos de linguagem (LLMs), especialmente em tarefas abertas como a redação criativa e a programação. No entanto, esse método costuma ser lento, caro e requer expertise especializada.
Apresentando o Avaliador Autodidata
Pesquisadores da Meta FAIR desenvolveram uma abordagem inovadora chamada Avaliador Autodidata, que utiliza dados sintéticos para treinar avaliadores de LLMs sem anotações humanas. Embora existam algumas limitações, esse método promete aumentar a eficiência e escalabilidade da avaliação de LLMs, especialmente para empresas que buscam construir modelos personalizados.
Desafios da Avaliação de LLMs
Os LLMs frequentemente atuam como avaliadores para alinhar outros modelos com preferências humanas ou melhorar seu próprio desempenho durante o treinamento. Isso é crucial em tarefas com múltiplos resultados válidos, comuns em cenários criativos e complexos. Tradicionalmente, o treinamento preciso de avaliadores de LLMs depende de um grande volume de dados anotados por humanos, um processo caro e demorado que dificulta o desenvolvimento rápido de aplicações baseadas em LLM.
Como Funciona o Avaliador Autodidata
O Avaliador Autodidata resolve esse problema ao eliminar a necessidade de dados rotulados por humanos. Ele se baseia no conceito de LLM-como-Juíz, onde o modelo recebe uma entrada, duas possíveis respostas e um prompt de avaliação para determinar qual resposta é superior por meio da geração de uma cadeia de raciocínio.
O processo começa com um LLM semente e uma coleção significativa de instruções escritas por humanos, não rotuladas, frequentemente encontradas em sistemas produtivos. O avaliador seleciona um conjunto de instruções desse pool não curado e gera pares de respostas: uma “escolhida” como de maior qualidade e a outra “rejeitada.”
O avaliador é então treinado iterativamente. Em cada iteração, ele sampleia múltiplas cadeias de raciocínio e julgamentos do LLM-como-Juíz. As cadeias de raciocínio corretas são incluídas no conjunto de treinamento, compostas pela entrada, respostas verdadeiras e falsas e cadeias de julgamento. O modelo é refinado com esse novo conjunto de dados, resultando em um modelo atualizado para iterações seguintes.
Testando o Avaliador Autodidata
Os pesquisadores iniciaram seu Avaliador Autodidata utilizando o modelo Llama 3-70B-Instruct e empregaram o conjunto de dados WildChat, selecionando mais de 20.000 exemplos de categorias de raciocínio. Eles também exploraram outros conjuntos de dados e tarefas, incluindo programação e problemas matemáticos de palavras, permitindo que o pipeline de autoaprendizagem gerasse a totalidade das respostas e do conjunto de treinamento de forma autônoma.
Os experimentos demonstraram que o Avaliador Autodidata aprimorou significativamente a precisão do modelo base no benchmark RewardBench, aumentando seu desempenho de 75,4% para 88,7% ao longo de cinco iterações, sem nenhuma anotação humana. Essa precisão rivaliza e, em alguns casos, supera modelos treinados com dados rotulados por humanos, ultrapassando até alguns modelos privados de ponta. Melhorias semelhantes foram observadas no benchmark MT-Bench, que avalia o desempenho de LLM em conversas de múltiplas interações.
Implicações para Empresas
Essa pesquisa está alinhada com a crescente tendência de utilizar LLMs em loops de autoconfiança automatizados, reduzindo o esforço manual na criação de modelos de alto desempenho e facilitando o desenvolvimento de aplicações de IA mais escaláveis. O Avaliador Autodidata é particularmente benéfico para empresas com grandes quantidades de dados corporativos não rotulados que buscam aprimorar modelos sem extensa anotação manual.
No entanto, é vital reconhecer algumas limitações. A abordagem depende de um modelo semente inicial que é ajustado para instruções e alinhado com as preferências humanas. Os pesquisadores utilizaram o modelo Mixtral 8x22B de mistura de especialistas para seu conjunto de dados de treinamento inicial, destacando a necessidade de seleção cuidadosa de modelos semente e base relevantes de acordo com dados e tarefas específicos.
Benchmarks padronizados podem não capturar totalmente as capacidades e limitações de um LLM. Além disso, loops totalmente automatizados que dependem apenas de LLMs para autoavaliação correm o risco de otimizar para benchmarks enquanto apresentam desempenho inferior em aplicações do mundo real. As empresas devem realizar testes manuais em várias etapas de treinamento para garantir que os modelos atendam aos seus padrões de desempenho desejados.