Pesquisadores do Scaling Intelligence Lab da Universidade de Stanford apresentaram um novo framework de inferência chamado Archon, projetado para melhorar a eficiência de modelos de linguagem de grande porte (LLMs) na geração de respostas.
Archon utiliza um algoritmo de busca de arquitetura em tempo de inferência (ITAS) que potencializa o desempenho dos LLMs sem exigir treinamento adicional. Este framework open-source, independente de modelo, é facilmente implementável tanto em modelos grandes quanto pequenos.
O objetivo do Archon é auxiliar desenvolvedores na criação de sistemas de IA, aproveitando diversas técnicas de inferência para otimizar a geração de respostas. Segundo o Scaling Intelligence Lab, essas técnicas podem reduzir significativamente os custos associados ao desenvolvimento e à inferência de modelos. À medida que os LLMs evoluem para parâmetros maiores e raciocínios mais sofisticados, os custos podem aumentar, mesmo com as expectativas de empresas como a OpenAI pela maior acessibilidade.
Os pesquisadores destacam que o Archon cria automaticamente arquiteturas que melhoram a generalização das tarefas, permitindo que os modelos enfrentem desafios além de seu escopo de treinamento original. “Nosso framework Archon e o algoritmo ITAS são inspirados em arquiteturas neurais e práticas de busca de arquitetura”, explicaram os pesquisadores. “Archon consiste em camadas de LLMs, onde modelos dentro da mesma camada operam em paralelo, enquanto cada camada subsequente processa os resultados sequencialmente.”
Essas camadas utilizam diversas técnicas de inferência para modificar respostas candidatas, aplicando tanto geração e fusão (como transformações lineares) quanto refinamento de respostas (como não-linearidades).
Em testes de benchmark, incluindo MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH e CodeContests, o Archon superou o GPT-4o e o Claude 3.5 Sonnet em 15,1 pontos percentuais, além de ter desempenho 11,2 pontos percentuais superior em relação a LLMs open-source.
Componentes do Archon
O algoritmo ITAS consiste em vários componentes-chave que executam técnicas de inferência:
1. Gerador: Gera respostas potenciais para o modelo.
2. Fusor: Combina essas respostas em uma única resposta coesa. Por exemplo, se questionado sobre a capital da França, sintetiza as respostas "a capital da França é Paris" e "a França está na Europa" em uma afirmação: "A capital da França, um país na Europa, é Paris."
3. Classificador: Classifica as respostas geradas.
4. Crítico: Avalia a qualidade das respostas classificadas.
5. Verificador: Checa a consistência lógica e correção.
6. Gerador e Avaliador de Testes Unitários: Realiza pequenos testes para verificar a precisão das respostas.
A abordagem estruturada do Archon permite uma melhoria mais rápida na qualidade das respostas dos LLMs sem a necessidade de ajuste fino adicional.
Limitações do Archon
Atualmente, o Archon apresenta o melhor desempenho com LLMs que possuem 70 bilhões de parâmetros ou mais, como o Code Llama 70B da Meta. Essa limitação surge da capacidade reduzida de modelos menores de seguir instruções devido a janelas de contexto mais estreitas. A pesquisa destacou uma queda significativa de 16% no desempenho quando o Archon foi aplicado a modelos de 7B.
Além disso, os modelos que utilizam o framework Archon ficam 15,7% atrás de modelos de uma única interação. O laboratório de Stanford observou que o Archon não é adequado para aplicações que exigem latência rápida de uma única chamada de LLM, como chatbots. Sua arquitetura envolve múltiplas chamadas de LLM, tornando-o menos eficaz para tarefas simples de pergunta-resposta. No entanto, o Archon pode se destacar na resolução de tarefas mais complexas que exigem instruções detalhadas, como programação ou cenários avançados de atendimento ao cliente.
Apesar desses desafios, os pesquisadores esperam que o Archon consiga acelerar o desenvolvimento de LLMs de alto desempenho sem a necessidade de investimentos de capital adicionais em inferência e treinamento.