O Arcano Inference Framework Aumenta a Velocidade e a Eficiência dos LLMs Sem Custo Adicional

Home Notícias de IA O Arcano Inference Framework Aumenta a Velocidade e a Eficiência dos LLMs Sem Custo Adicional

Pesquisadores do Scaling Intelligence Lab da Universidade de Stanford apresentaram um novo framework de inferência chamado Archon, projetado para melhorar a eficiência de modelos de linguagem de grande porte (LLMs) na geração de respostas.

Archon utiliza um algoritmo de busca de arquitetura em tempo de inferência (ITAS) que potencializa o desempenho dos LLMs sem exigir treinamento adicional. Este framework open-source, independente de modelo, é facilmente implementável tanto em modelos grandes quanto pequenos.

O objetivo do Archon é auxiliar desenvolvedores na criação de sistemas de IA, aproveitando diversas técnicas de inferência para otimizar a geração de respostas. Segundo o Scaling Intelligence Lab, essas técnicas podem reduzir significativamente os custos associados ao desenvolvimento e à inferência de modelos. À medida que os LLMs evoluem para parâmetros maiores e raciocínios mais sofisticados, os custos podem aumentar, mesmo com as expectativas de empresas como a OpenAI pela maior acessibilidade.

Os pesquisadores destacam que o Archon cria automaticamente arquiteturas que melhoram a generalização das tarefas, permitindo que os modelos enfrentem desafios além de seu escopo de treinamento original. “Nosso framework Archon e o algoritmo ITAS são inspirados em arquiteturas neurais e práticas de busca de arquitetura”, explicaram os pesquisadores. “Archon consiste em camadas de LLMs, onde modelos dentro da mesma camada operam em paralelo, enquanto cada camada subsequente processa os resultados sequencialmente.”

Essas camadas utilizam diversas técnicas de inferência para modificar respostas candidatas, aplicando tanto geração e fusão (como transformações lineares) quanto refinamento de respostas (como não-linearidades).

Em testes de benchmark, incluindo MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH e CodeContests, o Archon superou o GPT-4o e o Claude 3.5 Sonnet em 15,1 pontos percentuais, além de ter desempenho 11,2 pontos percentuais superior em relação a LLMs open-source.

Componentes do Archon

O algoritmo ITAS consiste em vários componentes-chave que executam técnicas de inferência:

1. Gerador: Gera respostas potenciais para o modelo.

2. Fusor: Combina essas respostas em uma única resposta coesa. Por exemplo, se questionado sobre a capital da França, sintetiza as respostas "a capital da França é Paris" e "a França está na Europa" em uma afirmação: "A capital da França, um país na Europa, é Paris."

3. Classificador: Classifica as respostas geradas.

4. Crítico: Avalia a qualidade das respostas classificadas.

5. Verificador: Checa a consistência lógica e correção.

6. Gerador e Avaliador de Testes Unitários: Realiza pequenos testes para verificar a precisão das respostas.

A abordagem estruturada do Archon permite uma melhoria mais rápida na qualidade das respostas dos LLMs sem a necessidade de ajuste fino adicional.

Limitações do Archon

Atualmente, o Archon apresenta o melhor desempenho com LLMs que possuem 70 bilhões de parâmetros ou mais, como o Code Llama 70B da Meta. Essa limitação surge da capacidade reduzida de modelos menores de seguir instruções devido a janelas de contexto mais estreitas. A pesquisa destacou uma queda significativa de 16% no desempenho quando o Archon foi aplicado a modelos de 7B.

Além disso, os modelos que utilizam o framework Archon ficam 15,7% atrás de modelos de uma única interação. O laboratório de Stanford observou que o Archon não é adequado para aplicações que exigem latência rápida de uma única chamada de LLM, como chatbots. Sua arquitetura envolve múltiplas chamadas de LLM, tornando-o menos eficaz para tarefas simples de pergunta-resposta. No entanto, o Archon pode se destacar na resolução de tarefas mais complexas que exigem instruções detalhadas, como programação ou cenários avançados de atendimento ao cliente.

Apesar desses desafios, os pesquisadores esperam que o Archon consiga acelerar o desenvolvimento de LLMs de alto desempenho sem a necessidade de investimentos de capital adicionais em inferência e treinamento.

O SCoRe da DeepMind Demonstra Como os LLMs Aproveitam o Conhecimento Interno para Corrigir Erros Sozinhos

DevDay 2024 da OpenAI: 4 Atualizações Cruciais para Melhorar a Acessibilidade e a Acessibilidade no AI

Most people like

Beatoven.ai

514.6K

Descubra o Beatoven.ai, o inovador gerador de música com IA criado especialmente para criadores de conteúdo. Com o Beatoven.ai, você pode facilmente criar músicas exclusivas baseadas em humor que elevam seus projetos, enriquecem sua narrativa e cativam seu público.

música sem royalties AI Music Generator

GirlfriendGPT - The AI Companion Chatroom

5.8M

Bem-vindo a um chat de companheiro de IA aberto e sem censura, onde você pode participar de conversas SFW (Seguras para o Trabalho) e NSFW (Não Seguras para o Trabalho). Junte-se a nós para discussões francas adaptadas aos seus interesses!

Sala de bate-papo de IA AI Character

Wudpecker - Your AI Meeting Assistant

94.7K

Registre, transcreva e resuma suas reuniões de forma simples com o Wudpecker. Esta poderosa ferramenta facilita a captura de discussões valiosas, garantindo que nada importante fique perdido. Com o Wudpecker, aumente a produtividade e otimize a comunicação para uma colaboração mais eficiente.

IA AI Meeting Assistant

Linguix

188.1K

O Linguix melhora sua escrita por meio de verificação avançada de gramática e ortografia, reescrita eficiente de texto e uma variedade de recursos adicionais projetados para aprimorar seu conteúdo.

Assistente de escrita Writing Assistants

Find AI tools in YBX