A Datasaur, uma startup de IA com sede em San Francisco especializada em rotulagem de texto e áudio para projetos de IA, lançou o LLM Lab — uma plataforma abrangente projetada para ajudar equipes na criação e treinamento de aplicações personalizadas de grandes modelos de linguagem, semelhantes ao ChatGPT.
O LLM Lab oferece opções de implantação tanto na nuvem quanto local, permitindo que as empresas desenvolvam aplicações internas de IA generativa, mitigando os riscos relacionados à privacidade de dados comumente associados a serviços de terceiros. Isso proporciona maior controle sobre os projetos.
“Criamos uma ferramenta que aborda pontos críticos comuns, apoia as melhores práticas em evolução e incorpora nossa filosofia de design para simplificar o processo”, disse Ivan Lee, CEO e fundador da Datasaur. “Baseando-nos em nossa experiência na construção de modelos personalizados para uso interno e clientes, desenvolvemos um produto LLM escalável e fácil de usar.”
Principais Recursos do LLM Lab da Datasaur
Desde sua fundação em 2019, a Datasaur tem avançado em uma plataforma robusta de anotação de dados para IA e PLN. O lançamento do LLM Lab marca uma evolução significativa dessas ofertas.
“Esta ferramenta vai além da nossa abordagem tradicional de Processamento de Linguagem Natural (PLN), que inclui métodos como reconhecimento de entidades e classificação de texto”, explicou Lee. “Os LLMs representam a próxima geração da tecnologia linguística, e nosso objetivo é ser a solução de referência da indústria para aplicações de IA em texto, documentos e áudio.”
Atualmente, o LLM Lab fornece uma interface unificada para vários componentes do desenvolvimento de aplicações LLM, incluindo ingestão de dados internos, preparação de dados, geração aumentada por recuperação (RAG), seleção de modelos incorporados e otimização das respostas de LLM. O produto é projetado com princípios de modularidade, composabilidade, simplicidade e manutenibilidade.
“Essa abordagem gerencia eficientemente diferentes embeddings de texto, bancos de dados vetoriais e modelos de base. A natureza dinâmica do espaço LLM exige uma plataforma independente de tecnologia, permitindo que os usuários intercalem tecnologias em busca de soluções ideais”, acrescentou Lee.
Para começar a usar o LLM Lab, os usuários selecionam um modelo fundamental e ajustam as configurações associadas, como temperatura e comprimento máximo da resposta. Modelos suportados incluem o Llama 2 da Meta, o Falcon de Abu Dhabi do Technology Innovation Institute, e Claude da Anthropic, além do Pinecone para bancos de dados vetoriais.
Em seguida, os usuários podem escolher templates de prompt para testar sua eficácia e fazer o upload de documentos para RAG. Após essas configurações, é possível finalizar ajustes para desempenho de qualidade e implantar a aplicação. Os usuários podem então avaliar pares de prompt/compleção e incorporar feedback para refinamento do modelo através de aprendizado por reforço com feedback humano (RLHF).
Superando Desafios Técnicos
Embora Lee não tenha revelado o número de empresas atualmente testando o LLM Lab, ele relatou feedback positivo de usuários iniciais. Michell Handaka, fundadora e CEO da GLAIR.ai, uma usuária da plataforma, destacou que o Lab facilita uma melhor comunicação entre equipes de engenharia e não engenharia, efetivamente quebrando barreiras no desenvolvimento de aplicações LLM.
A Datasaur já apoiou indústrias-chave, incluindo finanças, direito e saúde, na transformação de dados não estruturados em conjuntos valiosos de dados para aprendizado de máquina. Parcerias notáveis incluem Qualtrics, Ontra, Consensus, LegalTech e Von Wobeser y Sierra.
“Estamos apoiando líderes da indústria com visão de futuro e projetando um aumento de cinco vezes na receita em 2024”, observou Lee.
Desenvolvimentos Futuros para a Datasaur e o LLM Lab
No próximo ano, a Datasaur planeja aprimorar o LLM Lab e investir mais no desenvolvimento de LLM em nível empresarial. Os usuários poderão salvar configurações bem-sucedidas e compartilhar insights com colegas. O Lab também incorporará novos modelos fundamentais emergentes.
Diante da crescente demanda por aplicações LLM personalizadas e centradas na privacidade, o LLM Lab está posicionado para causar um impacto significativo. De acordo com o Relatório de Pesquisa de LLM de 2023, quase 62% dos entrevistados estão utilizando aplicações LLM como ChatGPT e GitHub Copilot para funções como chatbots, suporte ao cliente e codificação.
Diante da crescente preocupação com a privacidade, muitas empresas estão migrando de modelos de uso geral para soluções internas personalizadas que atendem a padrões de segurança, privacidade e regulamentação.