A Missão da Tenyx para Superar o Esquecimento Catastrófico em LLMs: Uma Solução para Melhorar o Desempenho da IA

Home Notícias de IA A Missão da Tenyx para Superar o Esquecimento Catastrófico em LLMs: Uma Solução para Melhorar o Desempenho da IA

Updated on dezembro 12 2023

Para maximizar os benefícios dos modelos de linguagem grande (LLMs), as empresas devem ajustá-los com dados específicos do domínio. Esse processo aumenta a capacidade do modelo de gerar saídas relevantes. No entanto, o ajuste de modelos pré-treinados traz um desafio crítico: a adaptação das ponderações para diferentes distribuições de dados pode resultar em “esquecimento catastrófico”, onde o modelo perde conhecimentos previamente adquiridos. Essa degradação impacta negativamente o desempenho e as habilidades de raciocínio do LLM.

A empresa de IA de voz Tenyx anunciou uma solução de ajuste projetada para combater esse problema. Sua plataforma permite que os negócios personalizem LLMs para suas necessidades específicas sem sacrificar o conhecimento fundamental ou as medidas de segurança. "O esquecimento catastrófico é um problema de longa data na comunidade de aprendizado de máquina", afirmou Itamar Arel, CEO e fundador da Tenyx. "Tradicionalmente, acreditava-se que os modelos poderiam ser treinados continuamente com novos dados enquanto mantinham as informações antigas."

Os Riscos do Ajuste

Arel destaca que o ajuste está se tornando cada vez mais vital para as aplicações empresariais de LLMs. No entanto, os cientistas de dados muitas vezes não têm acesso completo aos conjuntos de dados originais de treinamento, e os métodos tradicionais de ajuste não conseguem mitigar o efeito do esquecimento. Isso pode resultar na perda de capacidades essenciais e expor as organizações a conteúdos prejudiciais ou tendenciosos. Por exemplo, usar o LLaMA 7B como um chatbot de serviço ao cliente — uma aplicação comum — requer o ajuste com interações típicas de clientes. Técnicas padrão, como Low-Rank Adaptation (LoRA), podem levar involuntariamente à perda de conhecimentos valiosos, como responder corretamente à pergunta: "Qual a distância do hotel até o aeroporto?" ou inferir contexto de declarações como: "Vou chegar no dia 7 de dezembro e ficar quatro noites." "O modelo ajustado pode se destacar em tarefas específicas, mas pode gerar respostas incorretas ou tendenciosas sobre conhecimentos mais amplos e raciocínio," observou Arel.

Limitações da Low-Rank Adaptation

Embora LoRA seja popular por sua eficiência computacional, Arel explica que não foi projetada para enfrentar o esquecimento catastrófico. Quando o ajuste altera a distribuição dos dados em relação ao original, distorções imprevisíveis ocorrem. "Nossas descobertas indicam que, apesar das vantagens da LoRA, ela traz os mesmos riscos de perda de conhecimento e raciocínio," afirmou Arel. A complexidade do modelo também complica a identificação e a correção dessas distorções. Além disso, os métodos tradicionais de ajuste podem enfraquecer os protocolos de segurança estabelecidos por meio do aprendizado por reforço com feedback humano (RLHF), essenciais para prevenir saídas tendenciosas. "O RLHF é também um processo de treinamento e, portanto, é impactado durante o ajuste," enfatizou Arel.

Ineficências nas Estratégias de Mitigação Atuais

Atualmente, as empresas tentam gerenciar o esquecimento catastrófico contando com vários engenheiros de aprendizagem de máquina para limitar o ajuste e utilizar engenharia de prompts para resultados ideais. Contudo, essa abordagem é inconsistente, cara e carece de uma compreensão clara de quando e por que funciona. Além disso, avaliar conhecimento e raciocínio durante o ajuste, muitas vezes por meio de intervenção manual, complica o processo sem possibilidades de automação.

A Abordagem da Tenyx para o Ajuste

O método inovador de ajuste da Tenyx identifica quais parâmetros do modelo podem ser atualizados para aprender com novos dados, preservando a maior parte das mapeações de entrada-saída anteriores. Sua plataforma garante que as atualizações durante o ajuste não interrompam a capacidade do modelo de processar dados originais. "Ao analisar um LLM treinado, nosso método determina os pesos ideais para atualização, permitindo o aprendizado de novos dados enquanto minimiza o esquecimento catastrófico," explicou Arel. A abordagem da Tenyx emprega uma nova interpretação matemática das representações geométricas formuladas durante o treinamento inicial do LLM, retendo efetivamente as informações aprendidas anteriormente enquanto acomoda mudanças. Crucialmente, o método da Tenyx preserva as proteções do RLHF e alinha-se às diretrizes regulatórias, incluindo a Ordem Executiva da Casa Branca sobre IA Segura, Segura e Confiável.

Resultados do Método de Ajuste da Tenyx

Em um estudo piloto que avaliou algoritmos de ajuste populares em empresas e de código aberto, a Tenyx demonstrou vantagens notáveis em segurança, proficiência e retenção de conhecimento:

- Segurança: A Tenyx alcançou uma redução de 11% nos riscos, ultrapassando -66% da OpenAI, -94% da Together AI e -91% da LoRA.

- Proficiência: Embora o GPT 3.5 Turbo da OpenAI tenha mostrado superior proficiência inicial devido aos seus parâmetros, o Llama-2 7B da Tenyx se destacou após o ajuste.

- Conhecimento: A Tenyx registrou apenas 3% de perda por esquecimento catastrófico, comparado a 10% da OpenAI, 40% da Together AI e 43% da LoRA. "O esquecimento catastrófico continua sendo um obstáculo reconhecido em deep learning, impactando até os modelos mais avançados," observou Noah Goodman, professor associado da Universidade de Stanford. "À medida que os modelos se ajustam a novos dados do domínio, eles normalmente melhoram o desempenho nessa área, mas com o risco de alterar as habilidades estabelecidas." Goodman acrescentou: "A Tenyx tem uma equipe de pesquisa forte explorando soluções inovadoras para enfrentar esse desafio complexo."

Microsoft Lança o Phi-2: Um Modelo de Linguagem Compacto que Supera o Llama 2 e o Mistral 7B em Desempenho

Cohere Capacita Empresas a Criar Inteligência Artificial Usando Dados do Slack e do Google Drive

Most people like

BgRem

277.6K

BgRem é uma plataforma de IA avançada projetada para a criação e edição de imagens e vídeos de forma fluida. Seja você um criador de conteúdo, profissional de marketing ou entusiasta, o BgRem simplifica seu fluxo de trabalho, ajudando a produzir visuais impressionantes com facilidade.

Ferramentas de IA AI Tools Directory

NicheBay

96.8K

Introdução: Desperte o potencial do seu negócio de dropshipping e da sua loja Shopify com nosso aplicativo móvel inovador, projetado especificamente para empreendedores de e-commerce. Simplifique suas operações, aumente a produtividade e maximize as vendas tudo a partir do seu smartphone. Seja gerenciando o estoque, rastreando pedidos ou analisando tendências de vendas, nosso aplicativo oferece integração fluida e recursos intuitivos adaptados para atender às necessidades únicas de dropshippers e proprietários de lojas Shopify. Eleve seu negócio a novos patamares hoje!

Aplicativo de Dropshipping Other

PicStudio.AI

33.1K

Transforme suas fotos em impressionantes retratos profissionais em apenas alguns minutos com a avançada tecnologia de IA. Descubra como é fácil elevar suas imagens e criar visuais atraentes que se destacam. Perfeito para redes sociais, branding pessoal ou ocasiões especiais, nossa solução alimentada por IA oferece resultados excepcionais de forma rápida e sem esforço.

IA AI Art Generator

Prompt Vibes

35.2K

Prompt Vibes oferece uma vasta coleção de prompts valiosos para ChatGPT, projetados para aprimorar o desenvolvimento de chatbots.

chatbot AI Code Generator

Find AI tools in YBX