SambaNova Systems는 현재까지 발표된 것 중 가장 큰 대형 언어 모델(LLM) 중 하나인 1조 매개변수의 Samba-1을 공개했습니다. Samba-1은 OpenAI의 GPT-4와 달리 단일 모델이 아닌 50개 이상의 고품질 AI 모델을 통합한 Composition of Experts 아키텍처를 통해 특정 기업 애플리케이션에 맞게 사용자화 및 최적화할 수 있습니다.
9월, SambaNova는 효율적인 교육 및 추론 솔루션을 제공하기 위해 Nvidia와 경쟁하도록 설계된 SN40L AI 칩을 발표했습니다. Samba-1 모델은 SambaNova Suite에 통합되어 조직이 모델을 효과적으로 맞춤화하고 배포할 수 있게 합니다.
Rodrigo Liang SambaNova 공동 창립자 겸 CEO는 미리 구성되고 훈련된 최적화를 통해 높은 성능의 배포가 가능하다고 강조했습니다. 이 기능은 기업들이 일반적으로 요구되는 광범위한 미세 조정 없이도 성능을 극대화할 수 있도록 도와줍니다.
Samba-1의 Composition of Experts 활용 방법
Samba-1은 응집을 위해 최적화된 50개 이상의 개별 훈련 AI 모델로 구성되어 있습니다. 이에는 SambaNova 고유 모델과 Llama 2, Mistral, DeepSeek Coder, Falcon, DePlot, CLIP, Llava와 같은 특정 작업에 적합한 선별된 오픈 소스 모델이 포함됩니다. Liang은 “최고의 모델을 최적화하여 단일 1조 매개변수 모델로 결합했습니다.”라고 말했습니다. Samba-1 내의 모델은 매끄럽게 상호작용할 수 있어, 하나의 모델에서 나온 응답이 다른 모델의 입력으로 활용될 수 있습니다.
LLM의 연결을 통해 출력을 유도하는 것은 새로운 개념이 아닙니다. LangChain과 같은 인기 있는 오픈 소스 기술이 이를 활용하고 있습니다. 그러나 Liang은 Samba-1의 Composition of Experts 접근 방식이 보다 큰 이점을 제공한다고 주장합니다. LangChain은 사용자가 모델 체인을 미리 정의해야 하는 반면, Samba-1의 전문가들은 프롬프트와 응답에 따라 동적으로 연결될 수 있어 유연성을 촉진합니다.
또한, Samba-1은 다양한 데이터셋에서 훈련된 모델을 활용하여 다양한 관점을 제공합니다. “Samba-1은 50개의 LangChain 동등 모델을 동적으로 생성하여 다양한 결과를 탐색할 수 있습니다.”라고 그는 언급했습니다.
Composition of Experts vs. Mixture of Experts
Composition of Experts와 Mistral과 같은 일부 LLM에서 사용되는 Mixture of Experts 접근 방식을 구분하는 것이 중요합니다. Liang은 Mixture of Experts가 여러 데이터셋에서 훈련된 단일 모델을 사용하여 데이터 프라이버시 위기가 있을 수 있다고 설명했습니다. 반면, Composition of Experts는 각 모델을 별도이고 안전한 데이터셋에서 훈련하여 보안을 유지합니다. 이 접근 방식은 훈련 중 보안 프로토콜이 배포와 추론에도 연장되도록 보장합니다.
1조 매개변수의 맞춤형 솔루션
Samba-1은 1조 개의 매개변수를 자랑하지만, 조직이 배포를 위해 항상 이러한 규모가 필요한 것은 아닙니다. 여러 전문 모델을 활용함으로써 Samba-1은 보다 효율적으로 폭넓은 기능을 제공합니다. “모든 프롬프트가 한 번에 모든 1조 매개변수를 활성화할 필요는 없습니다.”라고 Liang은 설명했습니다. 이는 개선된 효율성, 감소된 전력 및 대역폭 사용량, 그리고 필요한 전문가만 활용됨으로써 경량 운영 환경을 제공합니다.
SambaNova는 고객이 자신의 독점 데이터에 따라 모델을 훈련할 수 있도록 지원하여 기업이 독창적이고 최적화된 자산을 개발할 수 있게 합니다. “Samba-1을 통해 당신만의 개인 1조 매개변수 모델을 가질 수 있으며, 이 모델이 당신의 데이터로 훈련되면 무기한 소유하게 됩니다.”라고 Liang은 말했습니다.