Not Diamond: Roteia Suas Consultas de Forma Eficiente para o Modelo de Linguagem Ideal

Na era dos modelos de linguagem de grande escala (LLMs), as empresas estão ansiosas para implementar o modelo mais eficaz para suas aplicações específicas. Embora essa tarefa possa parecer simples, muitas organizações enfrentam um desafio considerável: identificar a melhor solução para seus casos de uso em um cenário em rápida evolução.

Surge a Not Diamond, uma startup inovadora que está saindo do modo stealth, propondo que a chave para o sucesso é o roteamento inteligente. Com sede em San Francisco, a Not Diamond desenvolveu um roteador LLM inovador que permite que as empresas utilizem vários modelos simultaneamente, direcionando consultas para o mais adequado. Essa abordagem melhora a qualidade das respostas e otimiza fatores cruciais como latência e custos.

“Nossa crença fundamental é que o futuro não consistirá em um único modelo ou empresa dominante—em vez disso, haverá vários modelos de base, inúmeras variantes especializadas e uma infinidade de mecanismos de inferência personalizados operando acima deles. Fundamos a Not Diamond para facilitar esse futuro multimodelo, oferecendo a infraestrutura mais avançada do mundo para roteamento entre modelos”, afirma Tomás Hernando Kofman, cofundador e CEO da Not Diamond.

Apesar de seu estágio inicial, a Not Diamond atraiu atenção significativa, garantindo um financiamento de $2.3 milhões da defy.vc e figuras notáveis da comunidade de IA, incluindo Jeff Dean da Google DeepMind, Julien Chaumond da Hugging Face, Zack Kass da OpenAI, entre outros.

O Desafio de Custo de LLM versus Desempenho Específico de Tarefas

Navegar no atual cenário dos modelos de linguagem de grande escala é complexo, pois cada modelo—seja de código aberto ou proprietário—possui suas forças e fraquezas. Selecionar um modelo com extensão de contexto ampla e alto desempenho pode, muitas vezes, ser extremamente caro. Por outro lado, opções mais acessíveis podem carecer de capacidades críticas ou apresentar alta latência.

Adicionando à complexidade, novos modelos surgem diariamente, enquanto os existentes continuam a receber atualizações substanciais, demonstrando o potencial dos avanços de código aberto, como o Llama 3.1.

Como a Not Diamond Capacita Empresas

Kofman, que anteriormente desenvolveu um produto de IA sem código, enfrentou o dilema dos LLMs de perto. Ele idealizou uma solução: uma interface que permite às empresas acessar uma rede de modelos especializados, em vez de depender de uma única opção. Essa visão levou-o a colaborar com os especialistas em aprendizado de máquina Tze-Yang Tung e Jeffrey Akiki para estabelecer a Not Diamond, focada em criar uma infraestrutura que roteia consultas entre modelos de forma inteligente.

“A infraestrutura de roteamento eficiente é vital para maximizar o desempenho de sistemas de IA. Modelos menores e especializados podem superar os maiores em domínios específicos, e o roteamento oferece a esses modelos a robustez dos modelos gerais. Essa abordagem não só é eficiente em termos de computação, mas também melhora a interpretabilidade e a segurança”, explicou Kofman.

A Tecnologia Inovadora da Not Diamond

No cerne da solução da Not Diamond está um 'meta-modelo' e um algoritmo de ranqueamento LLM. Este roteador analisa de forma abrangente as consultas recebidas, direcionando-as automaticamente para o modelo mais adequado para fornecer respostas precisas, maximizando a eficiência de custos e minimizando a latência. Como resultado, as equipes são dispensadas de recorrer a grandes modelos para consultas simples.

Resultados de benchmarks indicam que o roteador da Not Diamond, ao utilizar múltiplos LLMs, supera modelos individuais como Llama 3.1 e GPT-4, proporcionando resultados superiores. Para desenvolver essa capacidade, a Not Diamond criou um extenso conjunto de dados de avaliação para medir o desempenho dos LLMs em várias tarefas, desde responder perguntas até codificação e raciocínio. A empresa treinou então um algoritmo de ranqueamento para identificar o LLM mais compatível para cada consulta, impulsionando o processo de roteamento.

Em dezembro de 2023, a Not Diamond lançou uma prévia de código aberto de seu roteador, permitindo que empresas gerenciem consultas entre o GPT-3.5 e o GPT-4 de forma contínua, com planos de expansão para outros modelos. Além disso, se uma equipe desejar integrar o roteador em seus fluxos de trabalho internos para aplicações específicas, ela pode fornecer conjuntos de dados de avaliação interna para treinar um roteador personalizado, otimizando a seleção de modelos. O roteador também oferece recursos de hashing de dados e tradução de comandos para melhorar o desempenho.

Accelerando a Adoção por Desenvolvedores

Embora ainda esteja em sua infância, a Not Diamond está vivendo uma aceitação significativa por parte de empresas em estágio inicial e desenvolvedores independentes. Embora o número específico de usuários ainda não tenha sido divulgado, um cliente empresarial, a Samwell AI, relatou uma melhoria de 10% na qualidade de saída do LLM, além de uma redução de 10% nos custos e na latência de inferência com o uso da tecnologia da Not Diamond.

Com o apoio de líderes do setor, a empresa busca construir sobre seu progresso, acelerando o desenvolvimento de produtos e aumentando as taxas de adoção. Kofman enfatiza que a Not Diamond possui “uma série de recursos adicionais em desenvolvimento”, embora os detalhes permaneçam em segredo.

No campo do roteamento inteligente de consultas, a Not Diamond enfrenta a concorrência de várias startups notáveis, incluindo Martian e Unify. No entanto, Kofman afirma que a Not Diamond se destaca devido à sua velocidade excepcional de roteamento, otimização de comandos e recursos de privacidade.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles