Microsoft представила Orca 2: Компактные языковые модели, превосходящие своих крупных соперников.

Home Новости ИИ Microsoft представила Orca 2: Компактные языковые модели, превосходящие своих крупных соперников.

Updated on ноябрь 20 2023

Несмотря на борьбу за власть и массовые отставки в OpenAI, Microsoft продолжает двигаться вперед со своими амбициями в области искусственного интеллекта. Сегодня компания представила Orca 2, пару небольших языковых моделей, которые либо соответствуют, либо превосходят значительно более крупные модели — такие как Meta’s Llama-2 Chat-70B — в сложных задачах логического мышления при нулевом обучении.

Модели Orca 2 доступны в двух размерах: 7 миллиардов и 13 миллиардов параметров. Они строятся на основе предыдущей модели Orca 13B, которая продемонстрировала впечатляющие способности к логическому мышлению, подражая пошаговому анализу более крупных, более продвинутых моделей, разработанных несколько месяцев назад.

«С Orca 2 мы показываем, что улучшенные методы подготовки и сигналы позволяют небольшим языковым моделям достигать уровней логического мышления, которые обычно доступны только значительно большим аналогам», — заявили исследователи Microsoft в блоге.

Обе модели были открыты для дальнейших исследований, что позволяет оценивать более мелкие модели, способные предоставить результаты, аналогичные их крупным «собратьям». Эта инициатива предоставляет предприятиям, особенно с ограниченными ресурсами, более доступный способ удовлетворения своих специфических потребностей без необходимости в значительных вычислительных мощностях.

Обучение небольших моделей логическому мышлению

Хотя крупные языковые модели, такие как GPT-4, постоянно впечатляют своими способностями к логическому мышлению и ответам на сложные вопросы, небольшие модели исторически отставали. Чтобы преодолеть этот разрыв, исследователи Microsoft доработали базовые модели Llama 2 с использованием специализированного синтетического датасета.

Вместо простого воспроизведения поведения более крупных моделей — распространенной техники, известной как имитационное обучение, — исследователи продвинули другую стратегию. Они обучили небольшие модели использовать разнообразные стратегии решения задач, адаптированные к конкретным задачам. Например, в то время как GPT-4 может напрямую отвечать на сложные запросы, меньшая модель может извлечь пользу из разбиения задачи на управляемые этапы.

«В Orca 2 мы обучаем модель нескольким техникам логического мышления (пошагово, вспомнить и затем сгенерировать, вспомнить-логически-генерировать, прямой ответ и т. д.) и сосредоточены на том, чтобы помочь ей выявить наиболее эффективную стратегию для каждой задачи», — написали исследователи в своей последней публикации. Данные для обучения были получены от более мощной модели-учителя, что позволило модели-ученику научиться, когда и как применять различные подходы к логическому мышлению.

Orca 2 превосходит более крупные модели

При оценке на 15 разнообразных тестах в условиях нулевого обучения, включая понимание языка, логическое мышление, многошаговое рассуждение, решение математических задач, понимание прочитанного, суммирование и проверку истинности, модели Orca 2 показали впечатляющие результаты, зачастую сравниваясь или превосходя результаты моделей, размер которых в пять-десять раз больше.

Средние результаты на тестах показали, что обе модели Orca 2 превосходят Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B и WizardLM-70B, за исключением теста GSM8K — датасета, содержащего более 8500 математических задач для школьников, где WizardLM-70B обошел Orca.

Соображения для внедрения в бизнес

Хотя эти достижения обещают много для команд предприятий, стремящихся к эффективным и высокопроизводительным моделям для экономичных приложений, важно понимать, что модели Orca 2 могут унаследовать ограничения, общие для всех языковых моделей и их базовой модели.

Microsoft подчеркнула, что применяемые техники для создания моделей Orca могут быть адаптированы и для других существующих моделей. «Хотя у Orca 2 есть некоторые ограничения, ее потенциал для повышения уровня логического мышления, специализации, контроля и безопасности в маленьких моделях очевиден. Стратегическое использование тщательно отфильтрованных синтетических данных является ключом к этим улучшениям. Пока более крупные модели продолжают превосходить, наша работа с Orca 2 представляет собой значительный шаг в диверсификации применения языковых моделей», — заключила исследовательская команда.

Будущее малых языковых моделей

С появлением открытых моделей Orca 2 и продолжением исследований в этой области очевидно, что в ближайшем будущем появятся и другие высокопроизводительные малые языковые модели.

Недавно 01.AI, китайский стартап, основанный ветераном ИИ Кай-Фу Ли, запустил модель с 34 миллиардами параметров, которая превосходит как китайский, так и английский языки, даже опережая 70-миллиардную модель Llama 2 и 180-миллиардную модель Falcon. Стартап также предлагает меньшую версию с 6 миллиардами параметров, которая показывает хорошие результаты на утвержденных тестах ИИ/МЛ.

Кроме того, Mistral AI — новый стартап из Парижа, который привлек внимание своим уникальным логотипом Word Art и рекордным посевным раундом в 118 миллионов долларов — представил модель с 7 миллиардами параметров, превышающую более крупные конкурентные модели, включая Meta’s Llama 2 13B.

AI21 получает дополнительные 53 миллиона долларов для конкуренции с OpenAI на рынке генеративного ИИ для бизнеса.

2024: Реализация ИИ-стратегии Microsoft для безопасности с нулевым уровнем доверия

Most people like

Getfloorplan

59.8K

Getfloorplan использует передовые технологии ИИ для создания потрясающих 2D и 3D планов этажей, а также захватывающих 360° виртуальных туров, специально разработанных для объявлений о недвижимости.

На базе ИИ AI 3D Model Generator

NeuronWriter

247.3K

NeuronWriter улучшает контент сайтов с помощью передовых стратегий семантического SEO, повышая позиции в поисковых системах и улучшая онлайн-видимость.

оптимизация контента AI Content Generator

BizPlanner.ai

29.3K

Преобразуйте пустые страницы в детализированные, действенные планы, предназначенные для достижения успеха.

Инструменты на базе ИИ AI Business Ideas Generator

Spur.Fit

18.8K

Представляем Spur.Fit — современную платформу персонального тренера на основе ИИ, созданную специально для фитнес-профессионалов. Этот инновационный инструмент позволяет тренерам улучшать свои услуги, оптимизировать управление клиентами и предлагать персонализированные тренировки, как никогда ранее.

Искусственный интеллект помощник AI Product Description Generator

Find AI tools in YBX