Команда исследователей Apple представила ИИ-систему с возможностью «Визии», способную анализировать содержимое экранов.

Исследователи Apple разработали революционную систему искусственного интеллекта под названием ReALM (Reference Resolution As Language Modeling), которая улучшает интерпретацию цифровыми помощниками неопределенных ссылок и контекста диалога, в результате чего взаимодействие становится более естественным. Эта инновация была недавно анонсирована.

ReALM использует крупные языковые модели для преобразования сложных задач разрешения ссылок — например, понимания визуальных элементов на экране — в задачи языкового моделирования. По данным исследовательской команды Apple, этот подход значительно превосходит традиционные методы. «Понимание контекста и ссылок имеет решающее значение для разговорных помощников. Возможность запрашивать контент на экране — ключевой шаг к достижению по-настоящему безрукой работы», — отметили они.

Одним из главных достижений ReALM в области разрешения ссылок является способность переопределять экранные объекты с использованием парсинга расположения, создавая текстовое представление, сохраняющее визуальную компоновку. Тесты показали, что данный метод, в сочетании с языковыми моделями, специально настроенными для разрешения ссылок, превосходит производительность GPT-4. Исследователи отметили: «Наша система значительно улучшила результаты по различным типам ссылок, обеспечив более чем 5%-ный абсолютный прирост в задачах, связанных с экранными ссылками, в то время как большая модель значительно превзошла GPT-4».

Это исследование подчеркивает потенциал специализированных языковых моделей в решении задач разрешения ссылок. В практических сценариях использование массивных энд-ту-энд моделей может оказаться непрактичным из-за задержек или вычислительных ограничений. Результаты подтверждают постоянную приверженность Apple к совершенствованию возможностей общения и контекстного понимания Siri и других продуктов.

Однако исследователи предостерегли, что автоматический парсинг экрана имеет свои ограничения. Для решения более сложных визуальных ссылок, таких как различение нескольких изображений, возможно, потребуется интеграция технологий компьютерного зрения и многомодальных подходов.

Apple постепенно добивается значительных успехов в области ИИ, хотя все еще отстает от конкурентов в этом быстро развивающемся рынке. Исследовательские лаборатории компании постоянно внедряют инновации в многомодальные модели, инструменты на базе ИИ и специализированные высокопроизводительные технологии, что отражает ее амбиции в секторе искусственного интеллекта.

Ожидание растет в преддверии Всемирной конференции разработчиков в июне, где Apple ожидается представит новые фреймворки крупных языковых моделей, чат-бота "Apple GPT" и другие функции ИИ в своей экосистеме, стремясь быстро адаптироваться к изменяющимся рыночным условиям.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles