Mesmo com a luta pelo poder e as renúncias em massa na OpenAI, a Microsoft segue firme em suas ambições de IA. Hoje, a empresa apresentou o Orca 2, uma dupla de pequenos modelos de linguagem que igualam ou superam modelos significativamente maiores—de cinco a dez vezes seu tamanho, incluindo o Llama-2 Chat-70B da Meta—em tarefas de raciocínio complexo sob condições de zero-shot.
Os modelos Orca 2 vêm em dois tamanhos: 7 bilhões e 13 bilhões de parâmetros. Eles se baseiam no modelo anterior Orca 13B, que já demonstrava impressionantes capacidades de raciocínio ao imitar o raciocínio passo a passo de modelos maiores e mais avançados desenvolvidos meses atrás.
"Com o Orca 2, mostramos que sinais e métodos de treinamento aprimorados permitem que modelos de linguagem menores alcancem capacidades de raciocínio normalmente reservadas a contrapartes muito maiores," afirmaram os pesquisadores da Microsoft em um post de blog.
Ambos os modelos foram disponibilizados como código aberto para pesquisas adicionais, permitindo a avaliação de modelos menores que podem oferecer desempenho semelhante ao de seus pares maiores. Esta iniciativa oferece às empresas, especialmente aquelas com recursos limitados, uma opção mais acessível para atender a necessidades específicas sem exigir um grande poder computacional.
Ensinando Pequenos Modelos a Raciocinar
Enquanto modelos de linguagem grandes, como o GPT-4, têm impressionado por suas capacidades de raciocínio e respondendo a perguntas complexas, modelos menores historicamente não alcançaram o mesmo nível. Para superar essa lacuna, a Microsoft Research ajustou os modelos base do Llama 2 utilizando um conjunto de dados sintético especializado.
Em vez de simplesmente replicar o comportamento de modelos maiores—técnica comum chamada de aprendizado por imitação—os pesquisadores adotaram uma abordagem diferente. Eles treinaram os modelos menores para utilizar variadas estratégias de resolução de problemas adaptadas a diferentes tarefas. Por exemplo, enquanto o GPT-4 pode responder diretamente a perguntas complexas, um modelo menor pode se beneficiar de decompor a tarefa em etapas gerenciáveis.
"Em Orca 2, ensinamos ao modelo diversas técnicas de raciocínio (passo a passo, recordar e gerar, recordar-razoar-gerar, resposta direta, etc.) e focamos em ajudá-lo a identificar a estratégia mais eficaz para cada tarefa," escreveram os pesquisadores em seu último artigo. Os dados de treinamento foram derivados de um modelo professor mais capaz, permitindo que o modelo aluno aprendesse tanto quando quanto como aplicar diferentes abordagens de raciocínio.
Orca 2 Supera Modelos Maiores
Ao serem avaliados em 15 benchmarks diversos em configurações de zero-shot—incluindo compreensão de linguagem, raciocínio lógico, raciocínio em múltiplas etapas, resolução de problemas matemáticos, compreensão de leitura, resumificação e veracidade—os modelos Orca 2 apresentaram resultados notáveis, muitas vezes igualando ou superando níveis de desempenho de modelos cinco a dez vezes maiores.
Os resultados médios nos benchmarks indicaram que ambos os modelos Orca 2 superaram o Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B e WizardLM-70B, exceto no benchmark GSM8K—um conjunto de dados com mais de 8.500 problemas de matemática de ensino fundamental—onde o WizardLM-70B superou o Orca.
Considerações para Implementação Empresarial
Embora esses ganhos de desempenho sejam promissores para equipes empresariais em busca de modelos eficientes e de alto desempenho para aplicações de custo efetivo, é crucial reconhecer que os modelos Orca 2 podem herdar limitações comuns a todos os modelos de linguagem, assim como aquelas de seu modelo base.
A Microsoft enfatizou que as técnicas aplicadas para criar os modelos Orca também podem ser adaptadas para outros modelos existentes. "Embora o Orca 2 tenha várias limitações, seu potencial para avançar o raciocínio, especialização, controle e segurança em modelos menores é claro. O uso estratégico de dados sintéticos cuidadosamente filtrados é fundamental para essas melhorias. À medida que modelos maiores continuam a se destacar, nosso trabalho com o Orca 2 representa um importante passo na diversificação das aplicações de modelos de linguagem," concluiu a equipe de pesquisa.
Futuro dos Modelos de Linguagem Pequenos
Com a disponibilidade dos modelos Orca 2 como código aberto e a continuidade das pesquisas na área, é evidente que mais modelos de linguagem pequenos e de alto desempenho estão a caminho.
Recentemente, a 01.AI, uma startup chinesa fundada pelo veterano de IA Kai-Fu Lee, lançou um modelo com 34 bilhões de parâmetros que se destaca tanto em chinês quanto em inglês, superando até mesmo os modelos Llama 2 de 70 bilhões e Falcon de 180 bilhões. A startup também oferece uma versão menor treinada com 6 bilhões de parâmetros que se destaca em benchmarks estabelecidos de IA/ML.
Além disso, a Mistral AI—uma nova startup baseada em Paris que ganhou atenção por seu exclusivo logotipo Word Art e pela recorde de captação de $118 milhões—introduziu um modelo de 7 bilhões de parâmetros que supera rivais maiores, incluindo o Llama 2 13B.