Модель ReALM от Apple Увеличивает Интеллект Siri
2 апреля стало известно, что Apple продолжает исследования в области искусственного интеллекта с новой моделью под названием ReALM, целью которой является значительное расширение возможностей Siri. Недавние исследования показывают, что ReALM превосходит известную языковую модель OpenAI, GPT-4.0, хотя на данный момент способность Siri описывать изображения остается нестабильной.
Ключевые особенности ReALM
ReALM выделяется своей способностью одновременно понимать содержимое, отображаемое на экране пользователя, и выполняемые действия. Модель классифицирует информацию на три типа:
1. Сущности экрана: Контент, который в данный момент виден на экране пользователя.
2. Диалоговые сущности: Информация, связанная с текущими разговорами, например, контактные данные "Мама" в команде "Позвони маме".
3. Фоновые сущности: Сущности, не связанные напрямую с содержимым экрана или действиями пользователя, такие как воспроизведение музыки или предстоящий будильник.
Если ReALM заработает в полной мере, Siri станет значительно умнее и полезнее. Исследовательская группа провела сравнительный анализ производительности ReALM и моделей OpenAI, GPT-3.5 и GPT-4.0, получив интересные результаты:
«Мы протестировали обе модели OpenAI, GPT-3.5 и GPT-4.0, предоставив им контекстуальную информацию для предсказания различных сущностей. GPT-3.5 обрабатывает только текстовые данные, тогда как GPT-4 может анализировать изображения, значительно повышая свои способности к идентификации сущностей экрана».
Впечатляющие результаты ReALM
ReALM продемонстрировала значительные успехи в распознавании различных типов сущностей. Самая маленькая модель достигла более чем 5% улучшения в точности распознавания сущностей экрана по сравнению с оригинальной системой. По сравнению с GPT-3.5 и GPT-4.0, наша самая маленькая модель показала результаты на уровне GPT-4.0, в то время как более крупные модели явно его превосходили.
Одним из выводов исследования является то, что, несмотря на существенно меньшее количество параметров по сравнению с GPT-4, производительность ReALM является конкурентоспособной, особенно при обработки пользовательских команд в специфических контекстах, что делает её эффективной системой распознавания сущностей на устройстве.
Для Apple проблема заключается в эффективном развертывании этой технологии на устройствах без ущерба для производительности. По мере приближения конференции разработчиков WWDC 2024, которая состоится 10 июня, отрасль с нетерпением ожидает демонстрации новых достижений в области ИИ в iOS 18 и других предстоящих системах.