Uma equipe colaborativa da Abacus.AI, da Universidade de Nova Iorque, da Nvidia, da Universidade de Maryland e da Universidade do Sul da Califórnia apresentou o LiveBench, um benchmark inovador destinado a superar limitações significativas enfrentadas pelos padrões da indústria existentes. O LiveBench funciona como uma ferramenta de avaliação de propósito geral para grandes modelos de linguagem (LLMs), fornecendo conjuntos de dados de teste livres de contaminação, problema frequente em benchmarks anteriores devido ao uso repetido entre diferentes modelos.
O que é um Benchmark?
Um benchmark é um teste padronizado que avalia o desempenho de modelos de IA por meio de uma série de tarefas ou métricas. Ele permite que pesquisadores e desenvolvedores comparem resultados, acompanhem avanços e compreendam as capacidades de diferentes modelos.
O LiveBench é particularmente notável pela participação do especialista em IA Yann LeCun, cientista-chefe da Meta, juntamente com Colin White, Chefe de Pesquisa na Abacus.AI, e outros renomados pesquisadores. Goldblum, um dos principais contribuintes, ressaltou a necessidade de benchmarks aprimorados para LLMs, afirmando que essa iniciativa foi impulsionada pela demanda por perguntas novas e diversificadas, eliminando a contaminação nos conjuntos de teste.
LiveBench: Principais Destaques
O crescimento dos LLMs revelou a inadequação dos benchmarks tradicionais de aprendizado de máquina. A maioria dos benchmarks está disponível publicamente e muitos LLMs modernos utilizam vastas porções de dados da internet durante o treinamento. Assim, se um LLM encontrar perguntas de benchmark durante o treinamento, seu desempenho pode parecer artificialmente elevado, levantando preocupações sobre a confiabilidade dessas avaliações.
O LiveBench busca resolver essas deficiências ao liberar perguntas atualizadas a cada mês, provenientes de uma variedade de conjuntos de dados recentes, competições matemáticas, artigos do arXiv, notícias e sinopses de filmes da IMDb. Atualmente, estão disponíveis 960 perguntas, cada uma com uma resposta verificável e objetiva que permite uma pontuação precisa sem a necessidade de juízes LLM.
Categorias de Tarefas
O LiveBench apresenta 18 tarefas distribuídas em seis categorias, utilizando fontes de informação continuamente atualizadas para aumentar a diversidade e o desafio das questões. Abaixo estão as categorias de tarefas:
- Matemática: Perguntas extraídas de competições de matemática do ensino médio e problemas avançados de AMPS.
- Codificação: Inclui geração de código e uma nova tarefa de conclusão de código.
- Raciocínio: Cenários desafiadores baseados no Web of Lies do Big-Bench Hard e raciocínio posicional.
- Compreensão de Linguagem: Tarefas envolvendo quebra-cabeças de palavras, remoção de erros tipográficos e destrinchar sinopses de filmes.
- Seguir Instruções: Quatro tarefas focadas em paráfrase, resumo e geração de histórias com base em artigos recentes.
- Análise de Dados: Tarefas que reformulam tabelas, identificam colunas uníveis e preveem tipos de colunas usando conjuntos de dados recentes.
Os modelos são avaliados com base em suas taxas de sucesso, que devem variar entre 30% e 70%, refletindo a dificuldade das tarefas.
Ranking LiveBench LLM
Em 12 de junho de 2024, o LiveBench avaliou diversos LLMs proeminentes, revelando que os melhores modelos alcançaram menos de 60% de precisão. Por exemplo, o GPT-4o da OpenAI lidera com uma pontuação média de 53,79, seguido de perto pelo GPT-4 Turbo com 53,34.
Implicações para Líderes Empresariais
Navegar no cenário de IA apresenta desafios para os líderes empresariais, especialmente na seleção do LLM adequado. Os benchmarks oferecem segurança em relação ao desempenho do modelo, mas muitas vezes não retratam uma imagem completa. Goldblum destaca que o LiveBench simplifica a comparação de modelos, reduzindo preocupações relacionadas à contaminação de dados e viés nas avaliações humanas.
Comparação com Benchmarks Existentes
A equipe do LiveBench realizou análises em conjunto com benchmarks estabelecidos como o Chatbot Arena e Arena-Hard da LMSYS. Embora as tendências do LiveBench geralmente se alinhem com outros benchmarks, discrepâncias específicas indicam potenciais viéses na avaliação dos LLMs.
O LiveBench foi projetado como uma ferramenta de código aberto, permitindo que qualquer pessoa a utilize, contribua e amplie suas capacidades. Como White observa, benchmarks eficazes são essenciais para o desenvolvimento de LLMs de alto desempenho, o que, por sua vez, acelera a inovação dos modelos. Os desenvolvedores podem acessar o código do LiveBench no GitHub e utilizar seus conjuntos de dados no Hugging Face.