Несмотря на борьбу за власть и массовые отставки в OpenAI, Microsoft продолжает двигаться вперед со своими амбициями в области искусственного интеллекта. Сегодня компания представила Orca 2, пару небольших языковых моделей, которые либо соответствуют, либо превосходят значительно более крупные модели — такие как Meta’s Llama-2 Chat-70B — в сложных задачах логического мышления при нулевом обучении.
Модели Orca 2 доступны в двух размерах: 7 миллиардов и 13 миллиардов параметров. Они строятся на основе предыдущей модели Orca 13B, которая продемонстрировала впечатляющие способности к логическому мышлению, подражая пошаговому анализу более крупных, более продвинутых моделей, разработанных несколько месяцев назад.
«С Orca 2 мы показываем, что улучшенные методы подготовки и сигналы позволяют небольшим языковым моделям достигать уровней логического мышления, которые обычно доступны только значительно большим аналогам», — заявили исследователи Microsoft в блоге.
Обе модели были открыты для дальнейших исследований, что позволяет оценивать более мелкие модели, способные предоставить результаты, аналогичные их крупным «собратьям». Эта инициатива предоставляет предприятиям, особенно с ограниченными ресурсами, более доступный способ удовлетворения своих специфических потребностей без необходимости в значительных вычислительных мощностях.
Обучение небольших моделей логическому мышлению
Хотя крупные языковые модели, такие как GPT-4, постоянно впечатляют своими способностями к логическому мышлению и ответам на сложные вопросы, небольшие модели исторически отставали. Чтобы преодолеть этот разрыв, исследователи Microsoft доработали базовые модели Llama 2 с использованием специализированного синтетического датасета.
Вместо простого воспроизведения поведения более крупных моделей — распространенной техники, известной как имитационное обучение, — исследователи продвинули другую стратегию. Они обучили небольшие модели использовать разнообразные стратегии решения задач, адаптированные к конкретным задачам. Например, в то время как GPT-4 может напрямую отвечать на сложные запросы, меньшая модель может извлечь пользу из разбиения задачи на управляемые этапы.
«В Orca 2 мы обучаем модель нескольким техникам логического мышления (пошагово, вспомнить и затем сгенерировать, вспомнить-логически-генерировать, прямой ответ и т. д.) и сосредоточены на том, чтобы помочь ей выявить наиболее эффективную стратегию для каждой задачи», — написали исследователи в своей последней публикации. Данные для обучения были получены от более мощной модели-учителя, что позволило модели-ученику научиться, когда и как применять различные подходы к логическому мышлению.
Orca 2 превосходит более крупные модели
При оценке на 15 разнообразных тестах в условиях нулевого обучения, включая понимание языка, логическое мышление, многошаговое рассуждение, решение математических задач, понимание прочитанного, суммирование и проверку истинности, модели Orca 2 показали впечатляющие результаты, зачастую сравниваясь или превосходя результаты моделей, размер которых в пять-десять раз больше.
Средние результаты на тестах показали, что обе модели Orca 2 превосходят Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B и WizardLM-70B, за исключением теста GSM8K — датасета, содержащего более 8500 математических задач для школьников, где WizardLM-70B обошел Orca.
Соображения для внедрения в бизнес
Хотя эти достижения обещают много для команд предприятий, стремящихся к эффективным и высокопроизводительным моделям для экономичных приложений, важно понимать, что модели Orca 2 могут унаследовать ограничения, общие для всех языковых моделей и их базовой модели.
Microsoft подчеркнула, что применяемые техники для создания моделей Orca могут быть адаптированы и для других существующих моделей. «Хотя у Orca 2 есть некоторые ограничения, ее потенциал для повышения уровня логического мышления, специализации, контроля и безопасности в маленьких моделях очевиден. Стратегическое использование тщательно отфильтрованных синтетических данных является ключом к этим улучшениям. Пока более крупные модели продолжают превосходить, наша работа с Orca 2 представляет собой значительный шаг в диверсификации применения языковых моделей», — заключила исследовательская команда.
Будущее малых языковых моделей
С появлением открытых моделей Orca 2 и продолжением исследований в этой области очевидно, что в ближайшем будущем появятся и другие высокопроизводительные малые языковые модели.
Недавно 01.AI, китайский стартап, основанный ветераном ИИ Кай-Фу Ли, запустил модель с 34 миллиардами параметров, которая превосходит как китайский, так и английский языки, даже опережая 70-миллиардную модель Llama 2 и 180-миллиардную модель Falcon. Стартап также предлагает меньшую версию с 6 миллиардами параметров, которая показывает хорошие результаты на утвержденных тестах ИИ/МЛ.
Кроме того, Mistral AI — новый стартап из Парижа, который привлек внимание своим уникальным логотипом Word Art и рекордным посевным раундом в 118 миллионов долларов — представил модель с 7 миллиардами параметров, превышающую более крупные конкурентные модели, включая Meta’s Llama 2 13B.