DataStax, 생성적 AI 개발을 위한 새로운 데이터 API 출시
DataStax는 개발자들이 생성적 AI 검색 증강 생성(RAG) 애플리케이션을 쉽게 만들 수 있도록 설계된 새로운 데이터 API를 발표했습니다. 오픈 소스 Apache Cassandra 데이터베이스의 선두 공급업체인 DataStax는 AstraDB 클라우드 데이터베이스 서비스를 이 기술로 운영합니다. 2023년에는 플랫폼에 벡터 데이터베이스 기능을 추가하며 주요 경쟁업체와 나란히 서게 되었습니다. 최근 행사에서 DataStax의 CEO는 Cassandra를 “생성적 AI를 위한 최고의 데이터베이스”라고 자신 있게 언급했습니다.
벡터 데이터베이스의 힘 활용하기
벡터 데이터베이스 기능은 대규모 언어 모델(LLM)과 데이터 플랫폼을 활용하여 정확하고 맞춤화된 출력을 생성하는 RAG 애플리케이션에 필수적입니다. DataStax는 2023년 7월부터 AstraDB에서 벡터 기능을 제공했지만, 사용자가 데이터 호출을 위해 Cassandra 쿼리 언어(CQL)를 여전히 사용해야 했습니다. 새로 출시된 데이터 API는 이 동력을 바꾸어 개발자들이 Python과 JavaScript를 통해 데이터베이스와 상호작용할 수 있도록 합니다. 이로 인해 DataStax는 최근 서버리스 기능을 도입한 Pinecone과 같은 목적 기반 벡터 데이터베이스와 더 가까워졌습니다.
“네이티브 벡터 데이터베이스와 쿼리 모델링에서 뛰어난 하이브리드 데이터베이스 간의 경쟁이 있었습니다,”라고 DataStax의 Chief Product Officer Ed Anuff는 말했습니다. “우리의 목표는 그 간극을 메우는 것이었으며, 데이터 API가 그 목표를 달성합니다.”
RAG 애플리케이션 개발 혁신하기
새 API는 AstraDB에 새로운 벡터 기능을 추가하지 않지만, 개발 프로세스를 간소화합니다. Anuff는 벡터 기능이 도입된 이후 새로운 AstraDB 사용자 중 약 절반이 생성적 AI 애플리케이션에 집중하고 있다고 언급했습니다. 그러나 이 개발자들은 주로 Python과 JavaScript를 사용했으며, AstraDB 데이터에 직접 접근하기 위한 지원이 부족했습니다.
API 출시 이전에는 AI 애플리케이션을 구축하기 위해 CQL에 대한 광범위한 지식이 필요했으며, 이는 복잡한 데이터 모델링을 요구하여 RAG 애플리케이션 개발에 적합하지 않았습니다. 쿼리는 벡터 데이터 검색을 최적화하지 못했습니다.
새로운 데이터 API는 벡터화를 자동으로 관리하여 Python과 JavaScript에서 사용자 친화적인 인터페이스를 제공하며, 데이터베이스 수준에서 벡터 데이터의 효율적인 저장 및 인덱싱을 통해 성능을 향상시킵니다. 이는 학습 곡선을 줄이고 기존 Cassandra API를 활용할 때보다 성능을 향상시킵니다.
데이터베이스 상호작용 현대화하기
전통적인 데이터베이스 API는 종종 Python이나 JavaScript와 같은 프로그래밍 언어를 데이터베이스의 쿼리 언어로 변환하는 방식으로 구식 객체-관계 매핑(ORM) 방법과 유사합니다. DataStax 데이터 API는 Cassandra의 독특한 아키텍처를 통해 더 깊은 데이터베이스 연결을 촉진하여 쿼리 성능을 향상시킵니다.
“데이터 API는 개발자에게 간단한 JSON 기반 데이터 형식을 제공합니다. JSON으로 표현할 수 있는 모든 것을 데이터베이스로 전송하고 검색할 수 있습니다,”라고 Anuff는 설명했습니다. “우리는 이를 Cassandra에 효율적으로 저장하여 최적의 성능을 유지합니다.”
JVector로 벡터 검색 향상하기
DataStax의 벡터 데이터베이스 발전의 핵심 요소는 AstraDB에 내장된 오픈 소스 도구인 JVector 검색 엔진입니다. Anuff는 JVector가 근사 최근 이웃(ANN) 검색 알고리즘의 디스크 최적화 버전인 DiskANN을 사용한다고 강조했습니다. 이 전략은 대규모 검색 성능을 크게 향상시킵니다.
DataStax는 JVector 엔진이 AstraDB가 다른 벡터 데이터베이스보다 우수한 관련성과 회수를 제공할 수 있게 한다고 주장합니다. JVector 및 새로운 데이터 API를 포함한 DataStax의 지속적인 벡터 개발의 대부분은 Cassandra 커뮤니티와 AstraDB 고객을 위해 오픈 소스화되고 있습니다.
“우리는 오픈 소스 생태계에 자원을 제공하는 데 강하게 의지하고 있습니다,”라고 Anuff는 밝혔습니다. “개발자들이 클라우드 서비스를 선택할 때 가장 간단한 경로를 제공하는 것이 우리의 목표입니다.”