Всего через несколько недель после открытия исходного кода Grok-1, xAI Элонa Маска готовится представить обновленную версию своей проприетарной языковой модели — Grok-1.5, которая выйдет на следующей неделе.
Grok-1.5 нацелена на улучшение способностей к рассуждению и решению проблем, приближая её производительность к уровню известных моделей, таких как GPT-4 от OpenAI и Claude 3 от Anthropic. Хотя Grok-1.5 может обрабатывать длинные контексты, она всё ещё уступает Gemini 1.5 Pro, который поддерживает окно контекста до 1 миллиона токенов.
Что нового в Grok-1.5?
Grok-1 была впервые анонсирована в ноябре прошлого года, вдохновлённая "Автостопом по Галактике", и предназначена для помощи пользователям в поисках знаний, независимо от их фона или политических убеждений. В предыдущих тестах Grok-1 превзошла Llama-2-70B и GPT-3.5.
По словам xAI, Grok-1.5 демонстрирует значительные улучшения в ключевых метриках. В тестах Grok-1.5 достигла 50.6% на бенчмарке MATH, 90% на GSM8K и 74.1% на HumanEval, показывая заметные улучшения в программировании и математических задачах.
Кроме того, Grok-1.5 достигла 81.3% на бенчмарке MMLU, что является существенным улучшением по сравнению с 73% у Grok-1. С окном контекста до 128,000 токенов, Grok-1.5 может обрабатывать в 16 раз больше информации, чем её предшественник, что делает её способной анализировать и обобщать длинные документы, эффективно следуя инструкциям.
Конкуренция с ведущими моделями
Grok-1.5 не только превосходит Grok-1, но и сокращает разрыв в производительности с такими моделями, как Gemini 1.5 Pro, GPT-4 и Claude 3. Например, 81.3% Grok-1.5 в бенчмарке MMLU немного опережает недавно выпущенную Mistral Large, но всё ещё отстаёт от 83.7% Gemini 1.5 Pro, 86.4% GPT-4 и 86.8% Claude 3 Opus. В бенчмарке GSM8K она также не дотягивает до предложений от Google, OpenAI и Anthropic. Примечательно, что Grok-1.5 превосходит все модели, кроме Claude 3 Opus, на HumanEval.
Брайан Роэммеле, технический консультант, ожидает, что Grok-2, который в настоящее время находится на стадии обучения, станет одной из самых мощных платформ LLM AI при выходе, превзойдя OpenAI по многим метрикам.
Доступность Grok-1.5
xAI планирует развернуть Grok-1.5 на следующей неделе, начав с ранних тестировщиков и пользователей чат-бота Grok на платформе X (ранее Twitter). Распространение будет поэтапным, с введением новых функций, включая потенциальный "развлекательный режим", при этом доступ будет постепенно расширяться для большего числа пользователей.
Первоначальный запуск Grok на X стал частью стратегии по увеличению популярности как Grok, так и платформы X. В настоящее время Grok доступен по подписке ‘Premium+’ за $16/месяц, но Маск недавно объявил, что он также станет доступен для всех подписчиков Premium за $8/месяц. Кроме того, проверенные подписчики на определённых уровнях получат премиум-преимущества, включая бесплатный доступ к Grok.