일주일 후, 엘론 머스크의 xAI는 자사의 대형 언어 모델(Grok-1)의 업그레이드 버전인 Grok-1.5를 출시할 예정입니다. Grok-1.5는 추론 및 문제 해결 능력을 향상시키며, OpenAI의 GPT-4 및 Anthropic의 Claude 3와 유사한 성능을 목표로 하고 있습니다. 긴 문맥 처리는 가능하지만, Gemini 1.5 Pro의 100만 토큰까지 지원하는 문맥 창에는 미치지 못합니다.
Grok-1.5의 변화는?
지난해 11월에 발표된 Grok-1은 "은하수를 여행하는 히치하이커를 위한 안내서"에서 영감을 받아 지식 탐구를 지원하도록 설계되었습니다. Grok-1은 Llama-2-70B 및 GPT-3.5를 초월한 성능을 보여주었습니다.
Grok-1.5는 주요 지표에서 눈에 띄는 개선을 이뤘다고 xAI는 주장합니다. 테스트에서 Grok-1.5는 MATH 벤치마크에서 50.6%, GSM8K 벤치마크에서 90%, HumanEval 벤치마크에서 74.1%를 기록해 코딩 및 수학 관련 작업에서 큰 발전을 나타냈습니다. 또한 MMLU 벤치마크에서 81.3%를 달성하여 Grok-1의 73%에서 큰 개선을 이뤘습니다. 128,000 토큰까지 지원하는 문맥 창 덕분에 Grok-1.5는 이전 모델보다 16배 더 많은 정보를 처리할 수 있어, 긴 문서 분석 및 요약에서 뛰어난 성능을 보여줍니다.
주요 모델들과의 경쟁
Grok-1.5는 Grok-1을 뛰어넘을 뿐만 아니라 Gemini 1.5 Pro, GPT-4 및 Claude 3와의 성능 격차도 좁히고 있습니다. 예를 들어, MMLU 벤치마크에서 Grok-1.5의 81.3%는 최근 출시된 Mistral Large를 초과하지만 Gemini 1.5 Pro의 83.7%, GPT-4의 86.4%, Claude 3 Opus의 86.8%에는 미치지 못합니다. GSM8K 벤치마크에서도 Google, OpenAI, Anthropic의 제품에 비해 약간 뒤처져 있습니다. 특히 Grok-1.5는 HumanEval에서 Claude 3 Opus를 제외한 모든 모델을 초월하는 성과를 보였습니다.
기술 컨설턴트인 브라이언 로에멜은 현재 훈련 중인 Grok-2가 출시되면 OpenAI를 여러 지표에서 초월하는 가장 강력한 LLM AI 플랫폼 중 하나로 자리매김할 것으로 예상합니다.
Grok-1.5의 접근 가능성
xAI는 Grok-1.5를 다음 주에 출시하여 초기 테스터와 Grok 채팅봇 사용자에게 우선 제공할 계획입니다. 배포는 단계적으로 이루어지며, "재미 모드"와 같은 새로운 기능이 도입되면서 점차 더 많은 사용자에게 접근성이 expanded될 예정입니다. 머스크의 Grok 초기 출시 전략은 Grok 및 X 플랫폼의 채택을 촉진하는 것이었습니다. 현재 Grok는 X 플랫폼의 '프리미엄+' 구독을 통해 월 16달러에 사용 가능하며, 머스크는 최근에 모든 월 8달러 프리미엄 구독자에게도 접근 가능하다고 발표했습니다. 또한 특정 구독 레벨의 인증된 팔로워는 Grok에 무료로 접근할 수 있는 프리미엄 혜택을 받을 수 있습니다.