억만장자 기업가 엘론 머스크의 스타트업 xAI가 그의 약속대로 첫 번째 대형 언어 모델(LLM)인 Grok을 오픈 소스로 출시했습니다. 이번 발표는 머스크가 이번 주에 있을 것이라고 예고한 바 있으며, 이는 기업가, 프로그래머, 기업, 개인들이 Grok의 가중치와 기타 관련 문서에 접근할 수 있게 해줍니다. 사용자는 Grok을 상업적 애플리케이션을 포함한 다양한 용도로 활용할 수 있습니다.
xAI는 블로그 게시글을 통해 “Grok-1의 기본 모델 가중치와 네트워크 아키텍처를 공개합니다. Grok-1은 xAI가 처음부터 훈련시킨 3140억 개의 파라미터를 가진 혼합 전문가 모델입니다.”라고 밝혔습니다. 기술 애호가들은 Grok의 코드를 GitHub 페이지 또는 토렌트 링크를 통해 다운로드할 수 있으며, Hugging Face는 빠른 다운로드 옵션을 제공합니다.
Grok의 오픈 소스화 의미
기계 학습에서 파라미터는 모델의 결정에 영향을 미치는 가중치와 편향을 의미합니다. 일반적으로 더 많은 파라미터는 더 복잡하고 능력 있는 모델을 나타냅니다. Grok은 3140억 개의 파라미터를 가지고 있어, 메타의 Llama 2(700억 개)와 Mistral 8x7B(120억 개)와 같은 오픈 소스 경쟁자들을 초월합니다. Grok은 Apache 2.0 라이선스 하에 공개되어 상업적 사용, 수정 및 배포가 가능하지만, 사용자는 원래 라이선스와 저작권 공지를 포함해야 하며 수정 사항을 문서화해야 합니다.
Grok은 2023년 10월 JAX와 Rust를 기반으로 한 커스텀 훈련 스택으로 구축되었으며, 최신 신경망 디자인을 활용하고 있습니다. 각 토큰에 대해 25%의 가중치를 사용하여 효율성과 효과성을 모두 향상시킵니다. Grok은 2023년 11월 처음 비공식 모델로 출시되었으며, 이전에는 머스크의 소셜 네트워크인 X(구 트위터)를 통해 월 $16 또는 연 $168의 X Premium+ 구독으로만 이용할 수 있었습니다.
제한 사항 및 지속적인 접근
Grok의 출시가 전체 훈련 데이터 코퍼스를 포함하지 않는다는 점은 중요합니다. 이 제한은 모델 사용에는 영향을 미치지 않지만, X의 사용자 텍스트 게시물 등 학습 소스를 분석할 수 없게 만듭니다. xAI 블로그에서는 모델이 “특정 작업에 맞춰 세부 조정되지 않은 대량의 텍스트 데이터로 훈련되었다”고 모호하게 언급했습니다.
또한, Grok은 실시간 정보를 처리할 수 없으며, 이는 머스크가 이전에 강조한 독특한 기능입니다. 실시간 업데이트를 원할 경우 사용자는 여전히 X Premium+ 서비스에 가입해야 합니다.
AI 분야에서의 전략적 위치
Grok은 머스크가 공동 창립한 OpenAI의 ChatGPT와 직접 경쟁하도록 설계되었습니다. 모델 이름은 “이해하다”라는 속어에서 유래되었으며, 더글라스 아담스의 풍자적 SF 시리즈 “은하수를 여행하는 히치하이커를 위한 안내서”를 연상시킵니다. 머스크는 Grok을 ChatGPT보다 더 유머러스하고 검열받지 않는 대안으로 묘사하였으며, AI 검열에 대한 우려가 있는 사용자들에게 매력적입니다. 이러한 포지셔닝은 구글의 제미니 AI에 대한 비판이 있는 상황에서 더욱 의미를 가집니다.
Grok의 오픈 소스화는 머스크가 OpenAI에 제기한 소송에서 그의 입장을 더욱 강화합니다. 머스크는 OpenAI가 원래의 비영리 사명에서 벗어났다고 주장하고 있으며, OpenAI는 그의 이전 장기적 지원을 나타내는 이메일을 공개하여 반박했습니다. X의 AI 커뮤니티는 Grok 출시 소식에 열광하며, 활용에 대한 기술적 논의가 GeGLU 및 흥미로운 샌드위치 정규화 기법을 포함해 발전하고 있습니다.
AI 산업에 대한 의미
Grok이 인기를 얻음에 따라 다른 LLM 제공업체, 특히 오픈 소스 경쟁자들이 Grok의 능력을 초월할 수 있음을 입증하도록 압박할 가능성이 높습니다.