Исследователи Apple разработали ИИ, который «видит» и понимает контекст экрана для улучшения пользовательского опыта.

Home Новости ИИ Исследователи Apple разработали ИИ, который «видит» и понимает контекст экрана для улучшения пользовательского опыта.

Updated on апрель 1 2024

Исследователи Apple представили продвинутую систему искусственного интеллекта, которая улучшает понимание голосовыми помощниками неоднозначных ссылок и контекста, обеспечивая более естественные взаимодействия. Это нововведение, описанное в статье, опубликованной в пятницу, получило название ReALM (Разрешение ссылок как языковое моделирование).

ReALM использует крупные языковые модели для превращения сложной задачи разрешения ссылок — включая идентификацию визуальных элементов на экране — в задачу языкового моделирования. Этот переход обеспечивает значительные улучшения в производительности по сравнению с текущими методами.

«Понимание контекста, включая ссылки, имеет ключевое значение для разговорного помощника», — отметила исследовательская группа. «Возможность запрашивать видимый контент на экране важна для достижения настоящего безрукого опыта при использовании голосовых помощников».

Улучшение разговорных помощников

Одной из главных особенностей ReALM является способность воссоздания визуальных элементов на экране с помощью разобранных сущностей и их позиций, что позволяет генерировать текстовое описание, соответствующее визуальной компоновке. Команда продемонстрировала, что этот метод в сочетании со специализированной настройкой языковых моделей для разрешения ссылок превосходит производительность GPT-4.

Система искусственного интеллекта Apple, ReALM, может эффективно интерпретировать ссылки на элементы экрана, такие как объявление «260 Sample Sale» в макете, что способствует более богатым взаимодействиям с голосовыми помощниками.

«Мы показываем значительные улучшения по сравнению с существующими системами обработки различных типов ссылок, причем наша самая маленькая модель демонстрирует более чем 5% прирост в точности ссылок на экране», — отметили исследователи. «Наши более крупные модели значительно превосходят GPT-4».

Практическое применение и ограничения

Это исследование подчеркивает потенциал специализированных языковых моделей для выполнения таких задач, как разрешение ссылок в производственных условиях, где крупные модели полного цикла могут быть нецелесообразными из-за задержек или вычислительных ограничений. Поделившись этими результатами, Apple подтверждает свою приверженность улучшению коммуникативных и контекстуально ориентированных возможностей Siri и других продуктов.

Однако команда также признает трудности автоматизации разбора экрана. Решение сложных визуальных ссылок, например, различение нескольких изображений, может требовать интеграции компьютерного зрения и мультимодальных технологий.

Амбиции Apple в области ИИ

Apple активно продвигается в области исследований искусственного интеллекта, хотя в настоящее время отстает от конкурентов в гонке за доминирование в ИИ. Ее недавние достижения варьируются от мультимодальных моделей, интегрирующих визуальные и языковые данные, до аниматорных инструментов на базе ИИ.

Несмотря на известный осторожный подход, Apple сталкивается с серьезной конкуренцией со стороны Google, Microsoft, Amazon и OpenAI, которые активно интегрируют генеративный ИИ в свои предложения.

Поскольку ландшафт ИИ быстро меняется, Apple оказывается в сложном положении. Ожидания растут в преддверии Всемирной конференции разработчиков, на которой компания, как ожидается, представит новую платформу для больших языковых моделей, получившую название «Apple GPT», наряду с дополнительными функциями на базе ИИ в своем ассортименте.

Генеральный директор Тим Кук намекнул во время телефонной конференции о прибылях, что подробности текущих инициатив Apple в области ИИ будут озвучены позже в этом году. Хотя стратегия компании остается сдержанной, масштабы ее усилий в области ИИ, безусловно, расширяются.

С ростом конкуренции за лидерство в ИИ, поздний выход Apple на рынок поставил ее под давление со стороны конкурентов. Тем не менее, ее огромные ресурсы, лояльность бренда, высококачественная инженерия и интегрированный портфель продуктов предоставляют потенциальное преимущество.

На горизонте новая эра интеллектуальных вычислений. В июне мы увидим, готова ли Apple повлиять на эту трансформацию.

Начните свое путешествие в мир аналитики данных с новым Einstein Copilot для Tableau от Salesforce.

Может ли генеративный ИИ сократить дефицит ресурсов в области кибербезопасности?

Most people like

OptimizerAI

118.2K

Откройте для себя мир неограниченных звуков, созданных с помощью ИИ, где творчеству нет предела. Получите доступ к огромному количеству аудио-опытов, созданных для вдохновения музыкантов, контент-креаторов и дизайнеров звука. Ищете ли вы уникальные звуковые ландшафты для своих проектов или инновационные звуковые эффекты для видео, наша передовая AI-технология предлагает бесконечные возможности. Погружайтесь и исследуйте будущее создания звука уже сегодня!

Звуковые эффекты Voice & Audio Editing

Creatie

132.5K

Открытие креативности: Трансформация дизайна с помощью ИИ.

Инструмент для дизайна на основе ИИ Design Assistant

Pikzels

97K

Получите неограниченное количество миниатюр за низкую ежемесячную плату! Наслаждайтесь безграничными творческими возможностями, не тратя много денег.

миниатюры AI Graphic Design

Prankify AI

154.3K

Откройте для себя идеальную платформу для шуток по телефону с использованием ИИ, созданную для незабываемых моментов смеха и развлечений.

Искусственный интеллект для розыгрышей по телефону AI Celebrity Voice Generator

Find AI tools in YBX