2017년 "Attention is All You Need"라는 획기적인 연구 논문이 발표된 이후, 변환기(Transformer)는 생성형 인공지능(AI) 분야의 중심에 자리 잡았습니다. 그러나 변환기는 생성형 AI에 대한 유일한 접근 방식이 아닙니다. AI21 Labs는 전통적인 변환기를 넘어서는 새로운 프레임워크인 “Jamba”를 소개했습니다.
Jamba는 구조적 상태 공간 모델(SSM)에 기반한 Mamba 모델과 변환기 아키텍처를 결합하여 최적화된 생성형 AI 솔루션을 제공합니다. "Jamba"라는 이름은 Joint Attention and Mamba Architecture의 약자로, SSM과 변환기의 장점을 통합하여 설계되었습니다. 이 모델은 Apache 2.0 라이센스 하에 오픈 소스로 배포됩니다.
Jamba는 기존의 변환기 기반 대형 언어 모델(LLM)을 대체할 준비가 되지는 않았지만, 특정 응용 프로그램에서 귀중한 보완 역할을 할 것으로 기대됩니다. AI21 Labs에 따르면, Jamba는 HellaSwag와 같은 벤치마크에서 전통적인 변환기 모델보다 생성적 추론 작업에서 우수한 성능을 보여줍니다. 그러나 문제 해결 능력을 평가하는 대규모 다중 작업 언어 이해(MMLU)와 같은 중요한 벤치마크에서는 아직 변환기 모델을 능가하지 못합니다.
AI21 Labs는 기업 응용 프로그램을 위한 생성형 AI를 전문으로 하며, 최근 2023년 8월에 1억 5500만 달러를 모금하여 이니셔티브를 확장했습니다. 기업 서비스 중 하나인 Wordtune은 조직의 톤과 브랜딩에 맞는 콘텐츠 생성을 도와주는 도구입니다. 2023년 회사는 생성형 AI 거대 기업 OpenAI와의 경쟁에서 기업 고객 확보에 성공했다고 보고했습니다.
AI21 Labs의 LLM 기술은 기존에 변환기 아키텍처를 활용해왔으며, Jurassic-2 LLM 가족은 AI21 Studio 자연어 처리(NLP) 플랫폼의 일환으로 API를 통해 기업 통합에 제공됩니다. 그러나 Jamba는 하이브리드 SSM 및 변환기 모델로의 전환을 나타냅니다.
변환기가 생성형 AI에서 중요한 역할을 하지만, 몇 가지 한계도 존재합니다. 주요 이슈 중 하나는 맥락 창이 확장되면서 추론 속도가 느려진다는 것입니다. AI21 Labs 연구원들은 변환기의 주의(attention) 메커니즘이 시퀀스 길이에 따라 확장되어 처리량이 감소한다고 설명합니다. 이는 긴 맥락 적용을 비효율적으로 만듭니다.
또한, 변환기를 확장하는 데 필요한 상당한 메모리 용량이 문제입니다. 맥락 길이에 따라 메모리 요구량이 증가하여 긴 맥락이나 여러 병렬 작업을 처리하기 위해서는 상당한 하드웨어 자원이 필요합니다. SSM 접근 방식은 이러한 맥락 및 메모리 문제를 해결하는 것을 목표로 합니다.
카네기 멜론 대학과 프린스턴 대학의 연구자들이 원래 개발한 Mamba SSM 아키텍처는 더 적은 메모리 사용과 큰 맥락 창을 관리하기 위한 다른 주의 메커니즘을 요구하도록 설계되었습니다. 그러나 여전히 변환기 모델과 동일한 출력 품질을 달성하는 데 어려움을 겪고 있습니다. Jamba의 하이브리드 접근 방식은 SSM의 자원 및 맥락 최적화와 변환기의 출력 능력을 결합합니다.
AI21 Labs는 Jamba 모델이 256K 맥락 창을 특징으로 하며, Mixtral 8x7B에 비해 긴 맥락에서 세 배의 처리량을 제공한다고 주장합니다. Jamba는 단일 GPU에서 140K 맥락을 수용할 수 있는 유일한 모델로 자리 잡고 있습니다.
Mixtral과 유사하게 Jamba는 전문가 혼합(MoE) 모델을 포함하고 있습니다. 그러나 Jamba는 하이브리드 SSM 변환기 프레임워크 내에서 MoE를 활용하여 더 높은 최적화 수준을 가능하게 합니다. 구체적으로, Jamba의 MoE 계층은 추론 중 사용할 수 있는 520억 개 파라미터 중 120억 개만 활성화되어, AI21 Labs에 따르면 동등한 크기의 변환기 전용 모델보다 더 효율적입니다.
현재 Jamba는 초기 단계에 있으며 AI21 Labs의 기업 서비스에 포함되지 않지만, 회사는 곧 AI21 Platform에서 베타 버전의 교육용 버전을 출시할 계획입니다.