Apple представляет MM1.5: многомодальная ИИ-модель стоимостью 30 миллиардов долларов с функциями распознавания изображений и понимания естественного языка.

Apple недавно представила свою последнюю мультимодальную AI-модель, MM1.5, с масштабом параметров в 30 миллиардов. Эта новая версия основана на предыдущей модели MM1 и включает значительные улучшения.

Модель MM1.5 использует принципы обучения на основе данных, тщательно исследуя, как смешанные данные влияют на производительность модели в различных циклах обучения. Документация для новой модели опубликована на платформе Hugging Face. Она предлагает различные конфигурации параметров от 1 до 30 миллиардов, демонстрируя способности в области распознавания изображений и естественного языкового мышления.

В этом обновлении исследовательская команда Apple оптимизировала стратегию смешивания данных, что привело к существенным улучшениям производительности модели в таких областях, как понимание мультитекстовых изображений, визуальная ссылка и локализация, а также многослойное детальное мышление. Исследования показывают, что на этапе предобучения MM1.5 включение высококачественных данных OCR и синтетических описаний изображений значительно укрепило способности модели к пониманию изображений с большим количеством текста. На этапе обучаемой тонкой настройки команда также проанализировала влияние различных типов данных на производительность модели, оптимизировав конфигурации данных для визуального обучения, что позволяет даже более мелким моделям (с 1 и 3 миллиардами параметров) достигать замечательных результатов.

Кроме того, Apple представила специализированные модели, такие как MM1.5-Video для понимания видео и MM1.5-UI для понимания интерфейса пользователя (UI) на мобильных устройствах. Модель MM1.5-UI станет основой AI Apple для экосистемы iOS, эффективно справляясь с задачами визуальной ссылки и локализации, а также суммируя функции экрана и взаимодействуя с пользователями.

Несмотря на выдающуюся производительность модели MM1.5 в различных тестах, команда Apple намерена продолжать улучшать возможности AI, интегрируя текстовые, визуальные и пользовательские данные для разработки более сложных архитектур. Эта постоянная работа направлена на усиление эффективности "AI Apple", что сделает его еще более мощным в понимании интерфейсов мобильных устройств.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles