Patronus AI Levanta US$ 17 milhões para Combater Alucinações de IA e Questões de Direitos Autorais, Impulsionando a Adoção Empresarial

Home Notícias de IA Patronus AI Levanta US$ 17 milhões para Combater Alucinações de IA e Questões de Direitos Autorais, Impulsionando a Adoção Empresarial

À medida que as empresas correm para adotar a inteligência artificial generativa, preocupações com a precisão e a segurança dos modelos de linguagem grandes (LLMs) ameaçam dificultar a integração em larga escala no setor. A Patronus AI, uma startup de San Francisco, está enfrentando esses desafios com sua recente captação de US$ 17 milhões em financiamento da Série A, destinada a identificar automaticamente erros custosos e potencialmente perigosos em LLMs em grande escala.

Esta rodada de financiamento eleva o total investido na Patronus AI para US$ 20 milhões, liderada por Glenn Solomon, da Notable Capital, com contribuições de Lightspeed Venture Partners, do ex-executivo da DoorDash Gokul Rajaram, Factorial Capital, Datadog e vários líderes de tecnologia não divulgados.

Fundada por especialistas em aprendizado de máquina da ex-Meta, Anand Kannappan e Rebecca Qian, a Patronus AI criou uma plataforma inovadora de avaliação automatizada que detecta problemas como alucinações, violações de direitos autorais e riscos de segurança nas saídas de LLMs. Utilizando inteligência artificial proprietária, a plataforma avalia o desempenho dos modelos, os estressa com exemplos adversariais e facilita comparações detalhadas—tudo sem o trabalho manual geralmente exigido pelas empresas.

“N nosso produto é excepcional em identificar uma variedade de erros,” afirmou Kannappan, CEO da Patronus AI. “Isso inclui alucinações, problemas de direitos autorais, riscos relacionados à segurança e capacidades personalizadas para manter o estilo e o tom de uma marca.”

A chegada de LLMs poderosos como o GPT-4 da OpenAI e o Llama 3 da Meta desencadeou uma corrida competitiva no Vale do Silício para aproveitar essas capacidades gerativas. Entretanto, junto com a empolgação, surgiram falhas notáveis, desde artigos gerados por IA cheios de erros pela CNET até empresas de descoberta de medicamentos retirando artigos de pesquisa influenciados por imprecisões de LLMs.

Essas falhas destacam problemas sistêmicos nos atuais LLMs, que a Patronus AI está determinada a resolver. Sua pesquisa, incluindo o recém-lançado API "CopyrightCatcher" e o benchmark "FinanceBench", revela deficiências alarmantes na capacidade dos modelos líderes de fornecer respostas precisas e baseadas em fatos.

No benchmark "FinanceBench", a Patronus avaliou modelos como o GPT-4 em consultas financeiras utilizando documentos públicos da SEC. Os resultados foram marcantes: o modelo com melhor desempenho respondeu corretamente apenas 19% das perguntas, mesmo revisando um relatório anual completo. Uma avaliação separada usando o API "CopyrightCatcher" descobriu que LLMs de código aberto reproduziram texto protegido por direitos autorais de forma literal em 44% dos casos.

“Mesmo os modelos mais avançados enfrentam dificuldades em precisão, apresentando apenas 90% de acerto em contextos financeiros,” observou Qian, CTO da Patronus. “Nossas descobertas mostram que os modelos de código aberto geram mais de 20% de respostas inseguras em áreas de alto risco. A violação de direitos autorais é uma preocupação substancial; grandes editores e empresas de mídia precisam ser cautelosos.”

Embora outras startups como a Credo AI e a Weights & Biases estejam desenvolvendo ferramentas de avaliação de LLMs, a Patronus se destaca por sua abordagem focada em pesquisa. Sua tecnologia central envolve o treinamento de modelos de avaliação dedicados para identificar cenários específicos em que os LLMs podem falhar.

“Nenhuma outra empresa se compara à profundidade de nossa pesquisa e tecnologia,” afirmou Kannappan. “Nossa estratégia é única—baseada no treinamento de modelos de avaliação, pioneirismo em técnicas de alinhamento e publicação de pesquisas.”

A Patronus AI ganhou reconhecimento com várias empresas da Fortune 500 em setores como automotivo, educação, finanças e software, ajudando-as a implementar LLMs de forma segura. Com a injeção de novos recursos, a Patronus planeja expandir suas equipes de pesquisa, engenharia e vendas, além de desenvolver benchmarks adicionais.

Se a Patronus conseguir realizar sua visão, avaliações automatizadas de LLMs poderão se tornar essenciais para as empresas, paralelas ao papel das auditorias de segurança na aceleração da adoção de nuvem. Qian imagina um futuro onde testar modelos com a Patronus será rotina, semelhante aos testes unitários de código.

“Nossa plataforma é versátil, aplicável em vários domínios, desde jurídico até saúde,” explicou. “Nosso objetivo é capacitar as empresas em todos os setores a utilizarem LLMs enquanto garantem a conformidade com seus requisitos específicos.”

Apesar das complexidades inerentes à validação do desempenho dos LLMs, devido à sua natureza de caixa-preta e vastas possibilidades de saída, a Patronus está comprometida em avançar na avaliação de IA. Ao expandir os limites do teste automatizado, visa facilitar a implantação responsável de LLMs em aplicações do mundo real.

“Automatizar a medição do desempenho de LLMs é desafiador devido à ampla gama de comportamentos que esses modelos gerativos podem apresentar,” reconheceu Kannappan. “No entanto, nossa metodologia orientada por pesquisa nos permite identificar erros de forma confiável e escalável, algo que os testes manuais simplesmente não conseguem.”

Empoderando Líderes de TI: O Papel Essencial das Soft Skills em um Cenário Tecnológico em Rápida Evolução

Intently Capta R$3 milhões para Lançar Ferramenta Inovadora de Networking em IA para Fundadores de Startups

Most people like

Wonderin AI Resume Builder

37.9K

Crie facilmente currículos profissionais personalizados que se destaquem.

Criador de currículos Resume Builder

Quick Creator

162.4K

Quick Creator é uma plataforma alimentada por IA, projetada para a criação fácil de blogs e páginas de destino, sempre enfatizando as melhores práticas de SEO.

Criação de conteúdo impulsionada por IA AI Content Generator

Podurama

50K

Podurama é um aplicativo versátil e multiplataforma projetado para fácil acesso a podcasts gratuitos e feeds RSS personalizados. Desfrute de streaming contínuo e descubra uma ampla variedade de conteúdos de áudio adaptados aos seus interesses.

aplicativo de podcast AI Podcast Assistant

Gunbot

35.9K

Descubra um bot de negociação cripto intuitivo, projetado para uso sem complicações em diversas exchanges. Esta solução amigável capacita traders de todos os níveis de experiência a otimizar suas estratégias e aprimorar seu desempenho no mercado de forma fácil. Junte-se à crescente comunidade de traders que utilizam esta poderosa ferramenta para navegar no mercado de criptomoedas com confiança.

Bot de negociação de criptomoedas AI Trading Bot Assistant

Find AI tools in YBX