Galileo Revoluciona a Avaliação de IA com Luna: Um Marco para Empresas
A Galileo, líder em IA generativa para empresas, lançou o Galileo Luna, uma suíte revolucionária de Modelos de Avaliação Fundamentais (EFMs) projetada para transformar a avaliação de sistemas de IA generativa nas empresas. Luna aborda desafios cruciais—velocidade, custo e precisão—que dificultavam anteriormente a adoção da IA generativa em ambientes produtivos.
“Galileo criou Luna para superar as limitações dos métodos de avaliação de GenAI existentes, que geralmente são lentos, caros e imprecisos”, disse Vikram Chatterji, co-fundador e CEO da Galileo. “Reconhecemos a necessidade de avaliações ultra-rápidas, econômicas e de alta precisão em ambientes de produção.”
Um Marco Significativo na Avaliação de IA
O lançamento do Luna representa um passo importante para a Galileo, que vem liderando o setor de GenAI corporativa desde o início de 2021. O compromisso da empresa com o avanço da avaliação de IA é evidente após quase um ano de rigorosa pesquisa e desenvolvimento que culminou na criação do Luna.
Luna demonstrou desempenho superior em um teste de referência, alcançando uma pontuação AUROC de 0,78, superando concorrentes como GPT-3.5, Trulens Groundedness e RAGAS Faithfulness.
Modelos Específicos Redefinindo Padrões de Avaliação
No coração da inovação do Luna estão seus modelos de linguagem pequenos e específicos, projetados para tarefas de avaliação, como detecção de alucinações, avaliação da qualidade do contexto, prevenção de vazamento de dados e identificação de prompts maliciosos. Esse foco especializado permite que Luna se destaque em três métricas principais: velocidade, custo e precisão.
"Utilizando modelos de linguagem pequenos personalizados, Luna realiza avaliações que são 97% mais baratas e 11 vezes mais rápidas do que as feitas com GPT-3.5", explicou Chatterji. Além disso, Luna supera métodos anteriores em até 20% na detecção de problemas como alucinações e informações pessoalmente identificáveis (PII).
Em uma análise de custo para avaliar 1 milhão de consultas mensais, Luna gera um custo de apenas $175, tornando-se significativamente mais econômica do que GPT-3.5 ($6,248), RAGAS Faithfulness ($7,994) e Trulens Groundedness ($16,641).
Inovação Sem Conjuntos de Dados Tradicionais
Uma característica marcante do Luna é sua capacidade de operar sem conjuntos de dados de verdadeiros padrões tradicionais. Ao utilizar modelos de avaliação pré-treinados e refinados em diversos conjuntos de dados específicos de domínio, Luna simplifica o processo de avaliação, eliminando a necessidade de conjuntos de testes customizados que consomem tempo.
As aplicações potenciais do Luna são vastas. Chatterji destacou sua eficácia em setores que exigem alta confiabilidade, como saúde, finanças e telecomunicações. “Luna é especialmente poderosa para aplicações empresariais em larga escala que processam milhões de consultas mensalmente”, acrescentou.
Velocidade Inigualável e Melhoria Contínua
O Luna da Galileo oferece uma velocidade excepcional, processando uma única consulta em apenas 0,232 segundos, uma melhoria significativa em relação a concorrentes como GPT-3.5 (2,5 segundos) e RAGAS Faithfulness (5,4 segundos).
Os casos de uso para Luna variam de monitoramento em tempo real de saídas de IA a garantir a segurança em interações de chatbots. Com o produto Fine Tune da Galileo, o Luna pode ser personalizado para atender necessidades específicas dos clientes, alcançando níveis de precisão de 95% ou mais em setores críticos, incluindo farmacêutico e serviços financeiros.
À medida que o cenário da IA generativa evolui, a Galileo continua dedicada à inovação contínua com o Luna, focando na expansão do suporte a tarefas, melhora da precisão e na redução de custos e latência.
“A Galileo se compromete a avançar na avaliação de IA, ajudando as organizações a implementar soluções de IA confiáveis”, afirmou Chatterji. “À medida que a IA generativa evolui, forneceremos aos clientes capacidades de ponta que inspiram confiança nos usuários.”
Com o lançamento do Luna, a Galileo fortaleceu sua posição como pioneira na avaliação de IA generativa para empresas. À medida que as empresas buscam aproveitar o potencial da IA generativa, as avaliações rápidas, econômicas e precisas do Luna serão fundamentais para impulsionar a adoção generalizada dessa tecnologia transformadora.