DataStax Melhora o Desenvolvimento de AI Generativa com Novo Data API
A DataStax lançou um novo data API projetado para simplificar a criação de aplicações de geração aumentada por recuperação (RAG) em AI generativa para desenvolvedores. Como um fornecedor líder do banco de dados open-source Apache Cassandra, a DataStax impulsiona seu serviço de banco de dados em nuvem AstraDB com essa tecnologia. Em 2023, a empresa adicionou capacidades de banco de dados vetorial à sua plataforma, posicionando-se ao lado de grandes players do setor. Em um evento recente, o CEO da DataStax referiu-se à Cassandra como "o melhor banco de dados para AI generativa".
Desbloqueando o Potencial dos Bancos de Dados Vetoriais
As capacidades de banco de dados vetorial são essenciais para aplicações RAG, que utilizam grandes modelos de linguagem (LLMs) e plataformas de dados para produzir saídas precisas e personalizadas. A DataStax ofereceu funcionalidades vetoriais no AstraDB desde julho de 2023; no entanto, os usuários ainda precisavam usar a Linguagem de Consulta Cassandra (CQL) para chamadas de dados. O novo data API altera essa dinâmica, permitindo que os desenvolvedores utilizem Python e JavaScript para interagir com o banco de dados. Essa atualização transforma o cenário competitivo, trazendo a DataStax mais perto de bancos de dados vetoriais sob medida, como o Pinecone, que recentemente introduziu funcionalidades serverless.
"Tem havido uma disputa entre bancos de dados vetoriais nativos que suportam apenas consultas vetoriais e bancos de dados híbridos que se destacam na modelagem de consultas", disse Ed Anuff, Chief Product Officer da DataStax. "Nosso objetivo era preencher essa lacuna, e é exatamente isso que o data API consegue."
Transformando o Desenvolvimento de Aplicações RAG
Embora o novo API não introduza novas capacidades vetoriais no AstraDB, ele simplifica o processo de desenvolvimento. Anuff observou que desde o início das capacidades vetoriais, cerca de metade dos novos usuários do AstraDB se concentrou em aplicações de AI generativa. O desafio era que esses desenvolvedores dependiam principalmente de Python e JavaScript, que não eram diretamente suportados para acessar dados do AstraDB.
Antes do lançamento do API, a criação de aplicações de AI exigia amplo conhecimento de CQL, envolvendo modelagem de dados complexa que não favorecia o desenvolvimento direto de aplicações RAG. As consultas também eram menos otimizadas para recuperação de dados vetoriais.
O novo data API alivia esses problemas ao gerenciar automaticamente a vetorização, oferecendo uma interface amigável em Python e JavaScript, e melhorando o desempenho por meio de armazenamento e indexação eficientes de dados vetoriais no nível do banco de dados. Isso reduz a curva de aprendizado e aumenta o desempenho em comparação com o uso de APIs existentes da Cassandra.
Modernizando a Interação com o Banco de Dados
APIs de banco de dados tradicionais costumam traduzir linguagens de programação como Python ou JavaScript para a linguagem de consulta de um banco de dados, uma prática semelhante aos métodos mais antigos de Mapeamento Objeto-Relacional (ORM). O data API da DataStax se destaca pela arquitetura única da Cassandra, que facilita conexões mais profundas dentro do banco de dados, resultando em melhor desempenho nas consultas.
"O data API apresenta aos desenvolvedores um formato de dados simples baseado em JSON. Qualquer coisa expressável em JSON pode ser enviada e recuperada do banco de dados", explicou Anuff. "Armazenamos isso de forma eficiente na Cassandra, mantendo um desempenho ideal."
Aprimorando a Busca Vetorial com JVector
Um componente chave dos avanços da DataStax em bancos de dados vetoriais é o motor de busca JVector, uma ferramenta open-source integrada ao AstraDB. Anuff destacou que o JVector emprega DiskANN, uma versão otimizada por disco do algoritmo de busca de vizinhos mais próximos (ANN). Essa estratégia melhora significativamente o desempenho de recuperação, especialmente em larga escala.
A DataStax afirma que o motor JVector permite que o AstraDB forneça superioridade em relevância e recordação em comparação com outros bancos de dados vetoriais. Grande parte do desenvolvimento contínuo da DataStax em vetores, incluindo o JVector e o novo data API, está sendo disponibilizada como open-source para a comunidade Cassandra e os clientes do AstraDB.
"Estamos fortemente comprometidos em fornecer recursos para ecossistemas open-source", afirmou Anuff. "Nosso objetivo é garantir que os desenvolvedores tenham o caminho mais simples ao escolher um serviço em nuvem."