Исследователи Apple представили революционную ИИ-систему: инновации, превосходящие производительность GPT-4.

Исследователи компании Apple разработали систему искусственного интеллекта под названием ReALM (Разрешение ссылок как языковое моделирование), целью которой является значительное улучшение понимания голосовыми помощниками команд.

В своей последней исследовательской работе Apple описывает, как ReALM использует большие языковые модели для решения задач разрешения ссылок. Эта система превосходно справляется с интерпретацией нечетких ссылок на объекты на экране и пониманием диалогов в контексте, что делает взаимодействие с устройствами более интуитивным и естественным.

Разрешение ссылок является ключевым аспектом понимания естественного языка, позволяя пользователям использовать местоимения и косвенные обращения в разговоре без путаницы. Однако это представляет значительную сложность для цифровых асистентов из-за необходимости обрабатывать различные вербальные подсказки и визуальную информацию. ReALM упрощает этот сложный процесс, превращая его в задачу языкового моделирования, что обеспечивает лучшее понимание ссылок на визуальные элементы на экране во время общения.

ReALM реконструирует визуальную компоновку экрана через текстовое представление, анализируя объекты на экране и их расположение, чтобы создать текстовый формат, отражающий содержание и структуру экрана. Исследования Apple показали, что специально настроенные языковые модели значительно превосходят традиционные методы, включая GPT-4 от OpenAI, в задачах разрешения ссылок.

Это преимущество позволяет пользователям более эффективно взаимодействовать с цифровыми ассистентами на основе содержимого, отображаемого на экранах, устраняя необходимость в точных и детализированных описаниях. Это открывает большие перспективы для применения голосовых ассистентов, например, в помощи водителям с навигацией во время вождения или в обеспечении более простого и точного взаимодействия для пользователей с ограниченными возможностями.

Недавно Apple опубликовала несколько исследований, связанных с искусственным интеллектом, в частности, методику обучения больших языковых моделей для бесшовной интеграции текстовой и визуальной информации, опубликованную в прошлом месяце. Ожидания растут в преддверии предстоящей конференции WWDC в июне, где Apple, как ожидается, представит ряд новых функций ИИ.

Most people like

Find AI tools in YBX