A startup de IA com sede em Toronto, a Cohere, lançou o Embed V3, a versão mais recente de seu modelo de embeddings, otimizado para busca semântica e aplicações de modelos de linguagem de grande porte (LLM). Os modelos de embeddings convertem dados em representações numéricas conhecidas como "embeddings", que ganharam destaque com o crescente uso de LLMs em aplicações empresariais.
O Embed V3 compete com o Ada da OpenAI e diversos modelos de código aberto, visando desempenho superior e melhor compressão de dados. Essas melhorias são projetadas para reduzir os custos operacionais das aplicações empresariais de LLM.
O Papel dos Embeddings no RAG
Os embeddings são fundamentais para diversas tarefas, incluindo a geração aumentada por recuperação (RAG), uma aplicação crítica de LLMs no ambiente corporativo. O RAG permite que desenvolvedores forneçam contexto aos LLMs, recuperando informações de fontes como manuais de usuário, históricos de chat, artigos ou documentos que não faziam parte do conjunto de treinamento original.
Para utilizar o RAG, as empresas geram embeddings para seus documentos e os armazenam em um banco de dados vetorial. Quando um usuário consulta o modelo, o sistema de IA calcula o embedding do prompt e o compara com os embeddings armazenados, recuperando os documentos mais relevantes para enriquecer o contexto da consulta.
Superando Desafios na IA Empresarial
O RAG aborda algumas limitações dos LLMs, como a falta de informações em tempo real e a tendência de gerar conteúdo impreciso, muitas vezes denominado “alucinações”. No entanto, encontrar os documentos mais relevantes para consultas de usuários ainda é um desafio.
Modelos de embeddings anteriores enfrentaram dificuldades com conjuntos de dados ruidosos, onde documentos irrelevantes poderiam se destacar devido ao simples uso de palavras-chave. Por exemplo, se um usuário pesquisa “sintomas da COVID-19”, modelos mais antigos poderiam priorizar um documento que menciona vagamente o termo, em vez de um que detalha sintomas específicos.
O Embed V3 da Cohere se destaca em corresponder documentos a consultas, oferecendo um contexto semântico preciso. No exemplo “sintomas da COVID-19”, o Embed V3 classificaria um documento que descreve sintomas específicos, como “febre alta”, “tosse contínua” ou “perda de olfato ou paladar”, mais alto do que uma declaração geral sobre a COVID-19.
A Cohere afirma que o Embed V3 supera outros modelos, incluindo o ada-002 da OpenAI, em benchmarks padrão de desempenho de embeddings. Disponível em vários tamanhos, o Embed V3 também inclui uma versão multilíngue que relaciona consultas a documentos em diversos idiomas, facilitando a recuperação de documentos relevantes em diferentes línguas para consultas em inglês.
Aprimorando o RAG com Recursos Avançados
O Embed V3 demonstra desempenho excepcional em casos de uso complexos, incluindo consultas RAG de múltiplas etapas. Quando o prompt de um usuário envolve várias perguntas, o modelo identifica e recupera documentos relevantes de forma eficaz para cada uma, tornando o processo mais ágil.
Essa eficiência reduz a necessidade de múltiplas consultas ao banco de dados vetorial. Além disso, o Embed V3 melhora a reclassificação—um recurso que a Cohere integrou em sua API—para organizar melhor os resultados de busca com base na relevância semântica.
“A reclassificação é especialmente eficaz para consultas e documentos complexos, já que modelos tradicionais de embeddings podem ter dificuldades nessas situações,” explicou um porta-voz da Cohere. “No entanto, para que a reclassificação seja eficaz, o conjunto inicial de documentos deve representar com precisão as informações mais relevantes. Um modelo superior como o Embed V3 garante que nenhum documento relevante seja negligenciado.”
Além disso, o Embed V3 pode reduzir significativamente os custos associados à operação de bancos de dados vetoriais. O processo de treinamento em três etapas do modelo incluiu um método de treinamento focado em compressão. Como destacou um porta-voz: “Os gastos para manter um banco de dados vetorial podem ser de 10 a 100 vezes maiores do que calcular os embeddings. Nosso treinamento focado em compressão possibilita uma compressão vetorial eficaz.”
Segundo o blog da Cohere, essa fase de compressão otimiza os modelos para compatibilidade com vários métodos de compressão, reduzindo substancialmente os custos dos bancos de dados vetoriais, enquanto mantém até 99,99% de qualidade na busca.