Microsoft запускает Phi-3 для общего использования и представляет Phi-3-Vision: предварительный просмотр мультимодальной малой языковой модели.

Microsoft расширяет доступ к своей семье легковесных моделей Phi-3 для разработчиков, практически через месяц после первоначального объявления. Эта семья включает Phi-3-medium, Phi-3-small и Phi-3-mini, последняя из которых теперь интегрирована в Azure AI. Кроме того, Microsoft представила мульти_MODALьный вариант Phi-3-vision, который имеет 4,2 миллиарда параметров.

Обзор Phi-3

Разработанная Microsoft Research, Phi-3 — это мощная языковая модель с 3 миллиардами параметров, специально созданная для обеспечения высоких возможностей рассуждения, сопоставимых с более крупными моделями, но по более низкой стоимости. Это четвертая итерация компактных языковых моделей Microsoft после Phi-1, Phi-1.5 и Phi-2.

AI-агенты и меньшие модели

Растущий спрос на AI-решения, работающие локально или на устройствах, побуждает разработчиков исследовать более эффективные и компактные модели. Семья Phi-3 включает три варианта: Phi-3-mini (3,8 миллиарда параметров), Phi-3-small (7 миллиардов параметров) и Phi-3-medium (14 миллиардов параметров). По данным компании, Phi-3 демонстрирует производительность на уровне OpenAI GPT-3.5 в более легковесном формате.

Выход Phi-3 совпадает с предстоящим внедрением AI-способностей в ПК. Разработчики теперь могут использовать эти варианты для улучшения AI-функциональности на ноутбуках, мобильных устройствах и носимых гаджетах.

Информация о Phi-3-vision

В дополнение к моделям Phi-3, Microsoft анонсирует Phi-3-vision, который поддерживает общие задачи визуального анализа, включая анализ диаграмм, графиков и таблиц. С 4,2 миллиарда параметров пользователи могут взаимодействовать с Phi-3-vision, задавая вопросы о визуализациях данных или конкретных изображениях.

Стоит отметить, что Google также представила свою легковесную мульти_MODALьную модель PaliGemma на недавней конференции для разработчиков, с 3 миллиардами параметров, что немного меньше, чем у Microsoft.

Способность AI обрабатывать различные типы входных данных имеет ключевое значение для разработчиков. Модель, которая сочетает эффективность легковесной архитектуры с производительностью более крупных языковых моделей, может значительно повысить уровень принятия.

Хотя Phi-3-vision в настоящее время находится в предварительном доступе, Microsoft пока не объявила о сроках ее публичного релиза.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles