Patronus AI Levanta US$ 17 milhões para Combater Alucinações de IA e Questões de Direitos Autorais, Impulsionando a Adoção Empresarial

À medida que as empresas correm para adotar a inteligência artificial generativa, preocupações com a precisão e a segurança dos modelos de linguagem grandes (LLMs) ameaçam dificultar a integração em larga escala no setor. A Patronus AI, uma startup de San Francisco, está enfrentando esses desafios com sua recente captação de US$ 17 milhões em financiamento da Série A, destinada a identificar automaticamente erros custosos e potencialmente perigosos em LLMs em grande escala.

Esta rodada de financiamento eleva o total investido na Patronus AI para US$ 20 milhões, liderada por Glenn Solomon, da Notable Capital, com contribuições de Lightspeed Venture Partners, do ex-executivo da DoorDash Gokul Rajaram, Factorial Capital, Datadog e vários líderes de tecnologia não divulgados.

Fundada por especialistas em aprendizado de máquina da ex-Meta, Anand Kannappan e Rebecca Qian, a Patronus AI criou uma plataforma inovadora de avaliação automatizada que detecta problemas como alucinações, violações de direitos autorais e riscos de segurança nas saídas de LLMs. Utilizando inteligência artificial proprietária, a plataforma avalia o desempenho dos modelos, os estressa com exemplos adversariais e facilita comparações detalhadas—tudo sem o trabalho manual geralmente exigido pelas empresas.

“N nosso produto é excepcional em identificar uma variedade de erros,” afirmou Kannappan, CEO da Patronus AI. “Isso inclui alucinações, problemas de direitos autorais, riscos relacionados à segurança e capacidades personalizadas para manter o estilo e o tom de uma marca.”

A chegada de LLMs poderosos como o GPT-4 da OpenAI e o Llama 3 da Meta desencadeou uma corrida competitiva no Vale do Silício para aproveitar essas capacidades gerativas. Entretanto, junto com a empolgação, surgiram falhas notáveis, desde artigos gerados por IA cheios de erros pela CNET até empresas de descoberta de medicamentos retirando artigos de pesquisa influenciados por imprecisões de LLMs.

Essas falhas destacam problemas sistêmicos nos atuais LLMs, que a Patronus AI está determinada a resolver. Sua pesquisa, incluindo o recém-lançado API "CopyrightCatcher" e o benchmark "FinanceBench", revela deficiências alarmantes na capacidade dos modelos líderes de fornecer respostas precisas e baseadas em fatos.

No benchmark "FinanceBench", a Patronus avaliou modelos como o GPT-4 em consultas financeiras utilizando documentos públicos da SEC. Os resultados foram marcantes: o modelo com melhor desempenho respondeu corretamente apenas 19% das perguntas, mesmo revisando um relatório anual completo. Uma avaliação separada usando o API "CopyrightCatcher" descobriu que LLMs de código aberto reproduziram texto protegido por direitos autorais de forma literal em 44% dos casos.

“Mesmo os modelos mais avançados enfrentam dificuldades em precisão, apresentando apenas 90% de acerto em contextos financeiros,” observou Qian, CTO da Patronus. “Nossas descobertas mostram que os modelos de código aberto geram mais de 20% de respostas inseguras em áreas de alto risco. A violação de direitos autorais é uma preocupação substancial; grandes editores e empresas de mídia precisam ser cautelosos.”

Embora outras startups como a Credo AI e a Weights & Biases estejam desenvolvendo ferramentas de avaliação de LLMs, a Patronus se destaca por sua abordagem focada em pesquisa. Sua tecnologia central envolve o treinamento de modelos de avaliação dedicados para identificar cenários específicos em que os LLMs podem falhar.

“Nenhuma outra empresa se compara à profundidade de nossa pesquisa e tecnologia,” afirmou Kannappan. “Nossa estratégia é única—baseada no treinamento de modelos de avaliação, pioneirismo em técnicas de alinhamento e publicação de pesquisas.”

A Patronus AI ganhou reconhecimento com várias empresas da Fortune 500 em setores como automotivo, educação, finanças e software, ajudando-as a implementar LLMs de forma segura. Com a injeção de novos recursos, a Patronus planeja expandir suas equipes de pesquisa, engenharia e vendas, além de desenvolver benchmarks adicionais.

Se a Patronus conseguir realizar sua visão, avaliações automatizadas de LLMs poderão se tornar essenciais para as empresas, paralelas ao papel das auditorias de segurança na aceleração da adoção de nuvem. Qian imagina um futuro onde testar modelos com a Patronus será rotina, semelhante aos testes unitários de código.

“Nossa plataforma é versátil, aplicável em vários domínios, desde jurídico até saúde,” explicou. “Nosso objetivo é capacitar as empresas em todos os setores a utilizarem LLMs enquanto garantem a conformidade com seus requisitos específicos.”

Apesar das complexidades inerentes à validação do desempenho dos LLMs, devido à sua natureza de caixa-preta e vastas possibilidades de saída, a Patronus está comprometida em avançar na avaliação de IA. Ao expandir os limites do teste automatizado, visa facilitar a implantação responsável de LLMs em aplicações do mundo real.

“Automatizar a medição do desempenho de LLMs é desafiador devido à ampla gama de comportamentos que esses modelos gerativos podem apresentar,” reconheceu Kannappan. “No entanto, nossa metodologia orientada por pesquisa nos permite identificar erros de forma confiável e escalável, algo que os testes manuais simplesmente não conseguem.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles