Исследователи Apple разработали революционный метод обучения крупных языковых моделей (LLM), который бесшовно сочетает текстовую и визуальную информацию. В их статье под названием "MM1: Метод предварительного обучения для мультимодальных LLM, анализ и выводы" описывается новый путь к созданию более умных и универсальных искусственных интеллектов.
Используя разнообразный набор данных, включая пары изображений и подписями, смешанные текстово-визуальные документы и чисто текстовые данные, Apple утверждает, что их модель MM1 демонстрирует превосходную точность в таких задачах, как генерация подписи к изображению, ответы на визуальные вопросы и естественное языковое рассуждение. Это исследование устанавливает новые стандарты в области ИИ, акцентируя внимание на сочетании различных типов обучающих данных и архитектур моделей, что позволяет машинам понимать и генерировать ответы на основе визуальных и лексических подсказок. Такие способности особенно важны для задач, требующих тонкой интерпретации мира, таких как объяснение сложных изображений или ответы на вопросы, связанные с визуальными элементами.
В статье также подчеркиваются впечатляющие способности MM1 к контекстному обучению, особенно в конфигурациях с до 3 миллиардов параметров. Примечательно, что его "цепочка рассуждений" позволяет модели решать сложные открытые задачи, основываясь лишь на нескольких примерах.
Это исследование представляет собой значительный шаг для Apple в улучшении ее возможностей ИИ на фоне жесткой конкуренции. Последние отчеты свидетельствуют о том, что Apple ведет переговоры с Google о лицензировании их генеративной LLM Gemini для поддержки новых функций в iOS 18 на iPhone.