Descubra o Maxim: Sua Plataforma Completa de Avaliação para Enfrentar os Desafios de Qualidade da IA.

As empresas estão otimistas em relação à IA generativa, investindo bilhões no desenvolvimento de aplicações que vão desde chatbots a ferramentas de busca para diversos casos de uso. Embora quase todas as grandes empresas estejam com uma iniciativa de IA generativa em andamento, existe uma diferença crítica entre se comprometer com a IA e implementá-la com sucesso em produção.

Hoje, a startup californiana Maxim, fundada pelos ex-executivos do Google e Postman Vaibhavi Gangwar e Akshay Deo, lançou uma plataforma completa de avaliação e observabilidade destinada a preencher essa lacuna. A empresa também anunciou um financiamento de $3 milhões da Elevation Capital e outros investidores-anjo.

A Maxim enfrenta um desafio significativo para os desenvolvedores que criam aplicações de IA sustentadas por grandes modelos de linguagem (LLMs): monitorar os vários componentes ao longo do ciclo de vida do desenvolvimento. Mesmo pequenos erros podem comprometer a confiabilidade e a confiança no projeto, resultando em atrasos na entrega. A plataforma da Maxim foca em testar e melhorar a qualidade e a segurança da IA tanto antes do lançamento quanto após a produção, estabelecendo um padrão que ajuda as organizações a otimizar seu ciclo de vida das aplicações de IA e a entregar rapidamente produtos de alta qualidade.

Desafios no Desenvolvimento de Aplicações de IA Generativa

Historicamente, o desenvolvimento de software seguia uma abordagem determinística, com práticas padronizadas para testes e iterações, permitindo que as equipes tivessem caminhos claros para aumentar a qualidade e a segurança. Entretanto, a introdução da IA generativa trouxe diversas variáveis, resultando em um paradigma não determinístico. Os desenvolvedores precisam gerenciar diferentes elementos, desde o modelo utilizado até a formulação de dados e perguntas dos usuários, garantindo qualidade, segurança e desempenho.

As organizações geralmente respondem a esses desafios de avaliação de duas formas principais: contratando talentos para supervisionar cada variável ou desenvolvendo ferramentas internas, o que pode aumentar os custos e desviar a atenção das funções principais do negócio.

Reconhecendo essa necessidade, Gangwar e Deo fundaram a Maxim para fechar a distância entre as camadas de modelo e aplicação da pilha de IA generativa. A plataforma oferece uma avaliação abrangente ao longo do ciclo de vida do desenvolvimento de IA, desde a engenharia de prompts e testes pré-lançamento até o monitoramento e otimização pós-lançamento.

Gangwar descreve a plataforma da Maxim como composta por quatro componentes principais: um conjunto de experimentação, uma caixa de ferramentas de avaliação, observabilidade e um motor de dados.

O conjunto de experimentação inclui um CMS de prompts, IDE, construtor de fluxos de trabalho visual e conectores a fontes de dados externas, permitindo que as equipes itere efetivamente sobre prompts, modelos e parâmetros. Por exemplo, as equipes podem experimentar diferentes prompts em vários modelos para um chatbot de atendimento ao cliente.

A caixa de ferramentas de avaliação oferece uma estrutura unificada para avaliações feitas tanto por IA quanto por humanos, permitindo que as equipes avaliem quantitativamente melhorias ou regressões por meio de testes abrangentes. Os resultados são visualizados em painéis que cobrem métricas como tonalidade, precisão, toxicidade e relevância.

A observabilidade é crucial na fase pós-lançamento, possibilitando monitoramento em tempo real de logs de produção e avaliações automatizadas para identificar e resolver problemas ao vivo, garantindo que os padrões de qualidade sejam atendidos.

Segundo Gangwar, “os usuários podem estabelecer controles automatizados para diversos sinais de qualidade, segurança e proteção em logs de produção. Também é possível configurar alertas em tempo real para regressões em métricas que são mais relevantes, como desempenho, custo e qualidade.”

Usando insights do conjunto de observabilidade, os usuários podem resolver problemas rapidamente. Se a qualidade dos dados for uma preocupação, o motor de dados permite a curadoria e enriquecimento perfectíveis dos conjuntos de dados para ajuste fino.

Implantações Aceleradas de Aplicações

Embora ainda esteja em suas fases iniciais, a Maxim afirma ter ajudado “algumas dezenas” de parceiros iniciais a testar, iterar e implantar seus produtos de IA a uma velocidade cinco vezes superior à anterior, atendendo setores como tecnologia B2B, serviços de IA generativa, BFSI e Edtech — indústrias onde os desafios de avaliação são particularmente agudos. À medida que a empresa expande suas operações, planeja aprimorar as capacidades da plataforma, focando em clientes de médio porte e grandes empresas.

A plataforma da Maxim também inclui recursos voltados para empresas, como controle de acesso baseado em funções, conformidade, colaboração em equipe e opções de implantação em nuvem privada virtual.

Embora a abordagem da Maxim para testes padronizados e avaliação seja notável, enfrenta desafios ao competir com rivais bem financiados, como Dynatrace e Datadog, que evoluem continuamente suas ofertas.

Gangwar comenta que muitos concorrentes focam apenas na monitoração de desempenho, qualidade ou observabilidade, enquanto a Maxim busca consolidar todas as necessidades de avaliação em uma única plataforma integrada. “O ciclo de vida de desenvolvimento exige uma gestão holística das necessidades relacionadas a testes, o que acreditamos que irá impulsionar melhorias significativas em produtividade e qualidade para aplicações sustentáveis”, afirma.

Olhando para o futuro, a Maxim pretende expandir sua equipe e capacidades operacionais enquanto forma mais parcerias com empresas focadas no desenvolvimento de produtos de IA. As melhorias futuras podem incluir avaliações proprietárias específicas de domínio para qualidade e segurança, além do desenvolvimento de um motor de dados multimodal.

Most people like

Find AI tools in YBX