구글이 Cloud Next 컨퍼런스에서 인공지능(AI) 분야의 다양한 발전을 발표한 가운데, 파리 기반의 Mistral AI가 최신 희소 전문가 혼합(sparse mixture of experts, SMoE) 모델인 Mixtral 8x22B를 출시했습니다. Mistral은 경쟁사들이 일반적으로 사용하는 시연 비디오나 블로그 게시물 대신, 사용자들이 새로운 모델을 직접 다운로드하고 테스트할 수 있도록 X에 토렌트 링크를 공유하는 비정통적인 방법을 선택했습니다.
이번 출시는 GPT-4 Turbo 비전 및 Gemini 1.5 Pro 출시 후 불과 며칠 만에 이루어진 Mistral의 세 번째 주요 모델 소개입니다. 메타 또한 다음 달 출시될 Llama 3에 대한 예고를 했습니다.
Mistral의 토렌트 파일에는 총 262GB의 네 가지 구성 요소가 포함되어 있으며, Mixtral 8x22B의 구체적인 기능은 아직 공개되지 않았지만, AI 애호가들은 그 잠재력에 기대감을 표하고 있습니다. 다만, 로컬 환경에서 모델을 실행하는 데 어려움이 있을 수 있습니다. 한 레딧 사용자에 따르면 “M1 Max Macbook을 구매했을 때 32GB는 과하다고 생각했는데… AI에 대한 관심이 갑자기 그렇게 불충분할 것이라는 생각은 하지 못했습니다.”
Mixtral 8x22B의 발표 직후, Mistral은 이 모델을 Hugging Face에 공개하여 추가 훈련 및 배포를 가능하게 하였으며, 사전 훈련된 모델에 조절 메커니즘이 없음을 강조했습니다. Together AI 역시 사용자가 실험해 볼 수 있도록 접근을 제공했습니다.
Mistral은 희소 MoE 접근 방식을 활용하여 특정 작업에 최적화된 전문 모델의 강력한 조합을 제공하고자 합니다. Mistral 웹사이트에서 설명하길, "각 계층에서 매 토큰마다 라우터 네트워크가 두 개의 '전문가'를 선택하여 토큰을 처리하고 그 출력 결과를 합산합니다. 이 방법은 매 토큰의 전체 매개변수 중 일부만 활성화하여 모델 매개변수의 수를 증가시키면서 비용과 지연 시간을 관리합니다."
이전에 Mistral은 46.7억 개의 총 매개변수를 갖춘 Mixtral 8x7B를 소개했으며, 하나의 토큰당 12.9억 개만 사용하여 12.9억 모델과 동일한 속도와 비용으로 입력 처리 및 출력 생성을 가능하게 했습니다. 최신 출시에서 레딧 토론에 따르면, 총 130억 개의 매개변수를 가진 것으로 보이며, 두 개의 전문가가 동시에 활성화될 경우 38억 개의 활성 매개변수가 토큰 생성에 참여합니다.
Mixtral 8x22B의 벤치마크 성능은 아직 확인되지 않았지만, 기대감은 큽니다. 사용자들은 Mixtral이 메타의 Llama 2 70B와 오픈AI의 GPT-3.5를 포함하여 여러 벤치마크에서 높은 성능을 보여주며 빠른 추론 시간을 제공한 성공을 이어갈 것이라고 믿고 있습니다.