Илон Маск представляет Grok-1.5: приближение к достижениям GPT-4

Всего через несколько недель после открытия исходного кода Grok-1, xAI Элонa Маска готовится представить обновленную версию своей проприетарной языковой модели — Grok-1.5, которая выйдет на следующей неделе.

Grok-1.5 нацелена на улучшение способностей к рассуждению и решению проблем, приближая её производительность к уровню известных моделей, таких как GPT-4 от OpenAI и Claude 3 от Anthropic. Хотя Grok-1.5 может обрабатывать длинные контексты, она всё ещё уступает Gemini 1.5 Pro, который поддерживает окно контекста до 1 миллиона токенов.

Что нового в Grok-1.5?

Grok-1 была впервые анонсирована в ноябре прошлого года, вдохновлённая "Автостопом по Галактике", и предназначена для помощи пользователям в поисках знаний, независимо от их фона или политических убеждений. В предыдущих тестах Grok-1 превзошла Llama-2-70B и GPT-3.5.

По словам xAI, Grok-1.5 демонстрирует значительные улучшения в ключевых метриках. В тестах Grok-1.5 достигла 50.6% на бенчмарке MATH, 90% на GSM8K и 74.1% на HumanEval, показывая заметные улучшения в программировании и математических задачах.

Кроме того, Grok-1.5 достигла 81.3% на бенчмарке MMLU, что является существенным улучшением по сравнению с 73% у Grok-1. С окном контекста до 128,000 токенов, Grok-1.5 может обрабатывать в 16 раз больше информации, чем её предшественник, что делает её способной анализировать и обобщать длинные документы, эффективно следуя инструкциям.

Конкуренция с ведущими моделями

Grok-1.5 не только превосходит Grok-1, но и сокращает разрыв в производительности с такими моделями, как Gemini 1.5 Pro, GPT-4 и Claude 3. Например, 81.3% Grok-1.5 в бенчмарке MMLU немного опережает недавно выпущенную Mistral Large, но всё ещё отстаёт от 83.7% Gemini 1.5 Pro, 86.4% GPT-4 и 86.8% Claude 3 Opus. В бенчмарке GSM8K она также не дотягивает до предложений от Google, OpenAI и Anthropic. Примечательно, что Grok-1.5 превосходит все модели, кроме Claude 3 Opus, на HumanEval.

Брайан Роэммеле, технический консультант, ожидает, что Grok-2, который в настоящее время находится на стадии обучения, станет одной из самых мощных платформ LLM AI при выходе, превзойдя OpenAI по многим метрикам.

Доступность Grok-1.5

xAI планирует развернуть Grok-1.5 на следующей неделе, начав с ранних тестировщиков и пользователей чат-бота Grok на платформе X (ранее Twitter). Распространение будет поэтапным, с введением новых функций, включая потенциальный "развлекательный режим", при этом доступ будет постепенно расширяться для большего числа пользователей.

Первоначальный запуск Grok на X стал частью стратегии по увеличению популярности как Grok, так и платформы X. В настоящее время Grok доступен по подписке ‘Premium+’ за $16/месяц, но Маск недавно объявил, что он также станет доступен для всех подписчиков Premium за $8/месяц. Кроме того, проверенные подписчики на определённых уровнях получат премиум-преимущества, включая бесплатный доступ к Grok.

Most people like

Find AI tools in YBX