오늘 Databricks는 데이터 이해 및 조작 분야에 특화된 보스턴 기반의 응용 연구 스타트업 Lilac을 인수했다고 발표했습니다. 인수의 재무 조건은 공개되지 않았습니다.
Ali Ghodsi의 주도 하에, Databricks는 Lilac 팀과 기술을 데이터 인텔리전스 플랫폼에 통합하려고 합니다. 과거 데이터 레이크하우스로 알려진 이 플랫폼은 다양한 분야의 사용자들에게 데이터셋 품질을 향상시키는 효율적인 접근 방식을 제공하여 고성능 대형 언어 모델(LLM) 애플리케이션 개발을 지원할 것입니다.
이번 인수는 Databricks가 데이터 및 생성 AI 솔루션을 위한 종합 플랫폼으로 자리매김하고자 하는 비전과 일치합니다. 최근에는 유럽에서 상당한 성공을 거둔 선도적 생성 AI 스타트업 Mistral에 비공식적인 금액을 투자하기도 했습니다.
Lilac: 데이터 탐색 간소화
지난해 Mosaic AI의 인수는 Databricks의 AI 주도 미래로의 전략적 전환을 의미하며, 사용자가 호스팅된 데이터를 이용해 생성 AI 애플리케이션을 안전하게 구축할 수 있도록 합니다. 그 이후 Databricks는 여러 개의 오픈 모델을 출시하여 고객들이 다양한 비즈니스 요구에 맞춰 고품질 LLM 애플리케이션을 개발, 배포 및 유지할 수 있도록 지원하고 있습니다.
업계에서 잘 알려진 바와 같이, 고품질 데이터는 LLM 시스템을 포함한 효과적인 AI 이니셔티브의 기초입니다. 최적의 모델 훈련과 실제 성능 테스트를 보장하기 위해 신뢰할 수 있는 데이터가 필요합니다. Lilac은 Databricks 내에서 이러한 데이터 품질 문제를 해결합니다.
전통적으로 팀은 비정형 데이터를 탐색하고 문제를 수정하기 위해 인력 집약적인 수동 방법을 사용해왔습니다. 2023년에 전 구글 엔지니어인 다니엘 스밀코프와 니킬 토라트가 설립한 Lilac은 확장 가능한 오픈 소스 솔루션을 제공합니다. 직관적인 사용자 인터페이스와 AI 향상 기능 덕분에 사용자는 비정형 텍스트 데이터를 효율적으로 분석, 이해 및 수정할 수 있습니다.
Lilac의 기능
Lilac 웹사이트에 따르면, 데이터 과학자 및 AI 연구자들은 다음과 같은 작업을 수행할 수 있습니다:
- 문서 클러스터링 및 분류
- 의미 검색 및 키워드 검색 수행
- 개인 정보 및 중복 감지, 비교 보기를 통한 필요 조정
- 특정 요구에 맞춘 데이터셋 조정
“Lilac의 팀은 모델 출력에서 편향이나 독성을 분석하고, Retrieval-Augmented Generation(RAG) 및 LLM의 세부 조정 또는 사전 학습을 위한 데이터를 준비할 수 있도록 제품을 설계했습니다."라고 Databricks 경영진 매테이 자하리아, 나빈 라오, 조너선 프랭클, 한린 탕, 아킬 굽타가 공동 블로그 포스팅에서 언급했습니다.
그들은 또한 Lilac의 기술이 Databricks의 Mosaic AI 툴링에 통합되어 개발자들이 맞춤형 생성 AI 시스템을 위한 데이터셋을 선별하는 능력을 향상시킬 것이라고 강조했습니다. 구체적인 통합 세부 사항은 아직 공개되지 않았지만, 목표는 분명합니다: LLM 출력 평가 및 모니터링, RAG 및 모델 세부 조정과 같은 중요한 프로세스를 위한 데이터셋 준비를 간소화하는 것입니다.
생성 AI 역량 확장
이번 인수는 Databricks가 강력한 생성 AI 애플리케이션 개발을 위한 엔드 투 엔드 도구를 제공하는 데 있어 중요한 이정표입니다. Databricks 플랫폼의 사용자들은 이미 LLM 기반 시스템을 생성하는 데 필요한 모든 요소에 접근할 수 있습니다. 여기에는 Meta, Stability, Mistral과 같은 산업 리더의 오픈 모델과 실험 및 최적화를 위한 전문 Mosaic 도구가 포함됩니다.
유사한 시장 수요에 대응하여, Snowflake와 같은 경쟁자들도 Cortex라는 완전 관리형 서비스를 도입하여 고객들이 고급 오픈 모델을 기반으로 앱을 구축하도록 지원하는 등 이 분야에서 발전하고 있습니다.