Исследователи Apple представили продвинутую систему искусственного интеллекта, которая улучшает понимание голосовыми помощниками неоднозначных ссылок и контекста, обеспечивая более естественные взаимодействия. Это нововведение, описанное в статье, опубликованной в пятницу, получило название ReALM (Разрешение ссылок как языковое моделирование).
ReALM использует крупные языковые модели для превращения сложной задачи разрешения ссылок — включая идентификацию визуальных элементов на экране — в задачу языкового моделирования. Этот переход обеспечивает значительные улучшения в производительности по сравнению с текущими методами.
«Понимание контекста, включая ссылки, имеет ключевое значение для разговорного помощника», — отметила исследовательская группа. «Возможность запрашивать видимый контент на экране важна для достижения настоящего безрукого опыта при использовании голосовых помощников».
Улучшение разговорных помощников
Одной из главных особенностей ReALM является способность воссоздания визуальных элементов на экране с помощью разобранных сущностей и их позиций, что позволяет генерировать текстовое описание, соответствующее визуальной компоновке. Команда продемонстрировала, что этот метод в сочетании со специализированной настройкой языковых моделей для разрешения ссылок превосходит производительность GPT-4.
Система искусственного интеллекта Apple, ReALM, может эффективно интерпретировать ссылки на элементы экрана, такие как объявление «260 Sample Sale» в макете, что способствует более богатым взаимодействиям с голосовыми помощниками.
«Мы показываем значительные улучшения по сравнению с существующими системами обработки различных типов ссылок, причем наша самая маленькая модель демонстрирует более чем 5% прирост в точности ссылок на экране», — отметили исследователи. «Наши более крупные модели значительно превосходят GPT-4».
Практическое применение и ограничения
Это исследование подчеркивает потенциал специализированных языковых моделей для выполнения таких задач, как разрешение ссылок в производственных условиях, где крупные модели полного цикла могут быть нецелесообразными из-за задержек или вычислительных ограничений. Поделившись этими результатами, Apple подтверждает свою приверженность улучшению коммуникативных и контекстуально ориентированных возможностей Siri и других продуктов.
Однако команда также признает трудности автоматизации разбора экрана. Решение сложных визуальных ссылок, например, различение нескольких изображений, может требовать интеграции компьютерного зрения и мультимодальных технологий.
Амбиции Apple в области ИИ
Apple активно продвигается в области исследований искусственного интеллекта, хотя в настоящее время отстает от конкурентов в гонке за доминирование в ИИ. Ее недавние достижения варьируются от мультимодальных моделей, интегрирующих визуальные и языковые данные, до аниматорных инструментов на базе ИИ.
Несмотря на известный осторожный подход, Apple сталкивается с серьезной конкуренцией со стороны Google, Microsoft, Amazon и OpenAI, которые активно интегрируют генеративный ИИ в свои предложения.
Поскольку ландшафт ИИ быстро меняется, Apple оказывается в сложном положении. Ожидания растут в преддверии Всемирной конференции разработчиков, на которой компания, как ожидается, представит новую платформу для больших языковых моделей, получившую название «Apple GPT», наряду с дополнительными функциями на базе ИИ в своем ассортименте.
Генеральный директор Тим Кук намекнул во время телефонной конференции о прибылях, что подробности текущих инициатив Apple в области ИИ будут озвучены позже в этом году. Хотя стратегия компании остается сдержанной, масштабы ее усилий в области ИИ, безусловно, расширяются.
С ростом конкуренции за лидерство в ИИ, поздний выход Apple на рынок поставил ее под давление со стороны конкурентов. Тем не менее, ее огромные ресурсы, лояльность бренда, высококачественная инженерия и интегрированный портфель продуктов предоставляют потенциальное преимущество.
На горизонте новая эра интеллектуальных вычислений. В июне мы увидим, готова ли Apple повлиять на эту трансформацию.