샌프란시스코에 본사를 둔 AI 스타트업 Datasaur가 AI 프로젝트를 위한 텍스트 및 오디오 레이블링에 특화된 LLM Lab을 출시했습니다. LLM Lab은 ChatGPT와 유사한 맞춤형 대형 언어 모델 애플리케이션을 생성하고 훈련하는 데 도움을 주기 위한 포괄적인 플랫폼입니다.
LLM Lab은 클라우드 및 온프레미스 배포 옵션을 모두 제공하여 기업이 내부 생성 AI 애플리케이션을 구축하면서 외부 서비스와 관련된 비즈니스 및 데이터 프라이버시 위험을 최소화할 수 있도록 합니다. 이를 통해 팀은 프로젝트에 대한 더 큰 통제력을 갖게 됩니다.
“우리는 일반적인 문제를 해결하고 지속적으로 발전하는 모범 사례를 지원하며, 과정을 단순화하는 디자인 철학을 담은 도구를 만들었습니다.”라고 Datasaur의 CEO이자 창립자인 아이반 리(Ivan Lee)는 말했습니다. “내부 사용과 고객를 위해 맞춤형 모델을 구축한 경험을 바탕으로, 확장 가능하고 사용자 친화적인 LLM 제품을 개발했습니다.”
Datasaur LLM Lab의 주요 기능
2019년 설립 이후, Datasaur는 AI와 NLP를 위한 강력한 데이터 주석 플랫폼을 발전시켜 왔습니다. LLM Lab의 출시는 이러한 제품들의 중요한 진화를 나타냅니다.
“이 도구는 개체 인식 및 텍스트 분류와 같은 전통적인 자연어 처리(NLP)의 경계를 넘어섭니다.” 리는 설명했습니다. “LLM은 차세대 언어 기술을 대표하며, 우리는 텍스트, 문서, 오디오 AI 애플리케이션을 위한 업계의 필수 솔루션이 되기를 목표로 합니다.”
현재 LLM Lab은 내부 데이터 수집, 데이터 준비, 검색 증강 생성(RAG), 내장 모델 선택, LLM 응답 최적화 등 다양한 LLM 애플리케이션 개발 구성요소를 위한 통합 인터페이스를 제공합니다. 이 제품은 모듈화, 조합 가능성, 단순성, 유지 관리 용이성의 원칙을 염두에 두고 설계되었습니다.
“이 접근법은 다양한 텍스트 임베딩, 벡터 데이터베이스 및 기초 모델을 효율적으로 관리합니다. LLM 공간의 동적 특성은 사용자들이 최적의 솔루션을 위해 기술을 교환할 수 있는 기술 중립 플랫폼의 필요성을 요구합니다.” 리는 덧붙였습니다.
LLM Lab을 사용하려면 사용자는 기초 모델을 선택하고 온도 및 최대 응답 길이와 같은 설정을 조정합니다. 지원되는 모델에는 메타의 Llama 2, 아부다비의 기술 혁신 연구소(Falcon), 앤트로픽의 Claude 및 Pinecone이 포함됩니다.
이후 사용자는 효과성을 테스트할 프롬프트 템플릿을 선택하고 RAG를 위해 문서를 업로드할 수 있습니다. 이러한 구성 후, 품질 성능을 위한 설정을 완료하고 애플리케이션을 배포합니다. 사용자는 프롬프트/완료 쌍을 평가하고 강화 학습을 통한 인간 피드백(RLHF)으로 모델 미세 조정을 위한 피드백을 통합할 수 있습니다.
기술적 도전 과제 극복
리 CEO는 현재 LLM Lab을 시험 중인 기업 수는 공개하지 않았으나 초기 사용자로부터 긍정적인 피드백을 받았다고 보고했습니다. 플랫폼 사용자이자 GLAIR.ai의 CEO인 미첼 핸다카(Michell Handaka)는 이 Lab이 엔지니어링 팀과 비엔지니어링 팀 간의 더 나은 소통을 촉진하여 LLM 애플리케이션 개발의 장벽을 효과적으로 허물어준다고 강조했습니다.
Datasaur는 이미 금융, 법률, 의료 등 주요 산업에서 비정형 데이터를 가치 있는 머신러닝 데이터셋으로 변환하는 데 기여해왔으며, 질적 파트너십으로는 Qualtrics, Ontra, Consensus, LegalTech 및 Von Wobeser y Sierra가 있습니다.
“우리는 미래 지향적인 업계 리더를 지원하고 있으며 2024년에는 수익이 5배 증가할 것으로 전망하고 있습니다.” 리는 주목했습니다.
Datasaur와 LLM Lab의 미래 발전
앞으로 Datasaur는 LLM Lab을 개선하고 기업 수준의 LLM 개발에 더 많은 투자를 할 계획입니다. 사용자들은 성공적인 구성을 저장하고 동료들과 통찰을 공유할 수 있습니다. Lab은 또한 새로운 기초 모델을 통합할 예정입니다.
맞춤형 프라이버시 중심 LLM 애플리케이션에 대한 수요가 상승함에 따라 LLM Lab은 주목할 만한 영향을 미칠 준비가 되어 있습니다. 2023 LLM 설문조사 보고서에 따르면 응답자의 약 62%가 ChatGPT 및 GitHub Copilot과 같은 LLM 애플리케이션을 챗봇, 고객 지원, 코딩 등 여러 기능에 활용하고 있습니다.
개인정보 보호 우려가 커짐에 따라 많은 기업들이 범용 모델에서 보안, 프라이버시 및 규제 기준을 준수하는 맞춤형 내부 솔루션으로 전환하고 있습니다.