A Arize AI, uma plataforma de observabilidade, lançou um novo produto destinado a ajudar empresas a identificar quando dados de prompt geram erros ou alucinações em modelos de linguagem de grande escala (LLMs). Esta ferramenta, projetada para engenheiros de IA, oferece insights cruciais para depuração de sistemas complexos, frequentemente isolando problemas provenientes de apenas algumas linhas de código.
Como explicou Jason Lopatecki, cofundador e CEO da Arize, “Todos nós somos engenheiros de prompt — criamos nossos próprios prompts. Muitas aplicações utilizam prompts templates, que permitem a aplicação repetida a diferentes conjuntos de dados, facilitando respostas mais eficazes às consultas dos usuários. No entanto, esses templates dependem de variáveis de prompt extraídas do seu sistema, e até mesmo pequenas discrepâncias de dados podem causar alucinações ou erros nas saídas dos LLMs.”
Monitorar variáveis de prompt é essencial, especialmente no contexto de chatbots de atendimento ao cliente e suporte, onde informações incorretas podem prejudicar a reputação de uma marca. Embora o gerenciamento de um único LLM possa simplificar o monitoramento, as empresas frequentemente utilizam múltiplos modelos de fornecedores como OpenAI, Google, Meta, Anthropic e Mistral, tornando esse acompanhamento crucial.
Lopatecki destaca a desinformação como a principal causa de alucinações. Identificar a origem desses erros — seja nos dados alimentados ao modelo, no template de prompt escolhido ou em outros fatores — é vital para reparos eficazes no sistema.
Compreender a variabilidade também é fundamental. Refere-se ao alcance de potenciais saídas de modelos de IA influenciadas por ajustes mínimos ou entradas de dados errôneas. “O processo de tomada de decisão não é apenas um cenário de entrada e saída único,” explicou Lopatecki. “As saídas da IA muitas vezes alimentam decisões subsequentes, criando uma rede complexa em que variações podem escalar para problemas significativos.”
Para enfrentar esses desafios, a Arize está desenvolvendo ferramentas especificamente para engenheiros de IA que são habilidosos em utilizar LLMs avançados para construir sistemas de IA sofisticados. “Esses engenheiros precisam de ferramentas robustas para aprimorar a inteligência de suas aplicações. O papel do engenheiro de IA se tornará ubíquo nos próximos anos,” afirma Lopatecki.
Lopatecki aspira que a Arize se torne o “Datadog para IA,” posicionando-a como concorrente do gigante de monitoramento em nuvem, que também entrou no campo de monitoramento de IA, incluindo suporte para modelos da OpenAI como o GPT-4. No entanto, ele acredita que a Arize possui uma vantagem: “Diferente do Datadog, nós nascemos no espaço da IA. O ritmo de inovação é rápido, e eles ainda estão desenvolvendo seus produtos de IA.”
Ele enfatiza a urgência de fornecer soluções eficazes de IA: “À medida que as empresas se apressam para implantar, muitas vezes testam apenas cenários limitados. A variabilidade e os potenciais problemas tornam-se evidentes quando esses sistemas operam no mundo real, levando a inúmeros desafios imprevistos. A necessidade de ferramentas de depuração eficazes chegou a um ponto crítico, e as empresas estão começando a reconhecer quantas coisas podem dar errado.”