Инструмент Apple ToolSandbox выявляет явный разрыв: открытый ИИ отстает от проприетарных моделей.

Home Новости ИИ Инструмент Apple ToolSandbox выявляет явный разрыв: открытый ИИ отстает от проприетарных моделей.

Updated on август 12 2024

Исследователи компании Apple представили ToolSandbox — инновационный бенчмарк, направленный на всестороннюю оценку реальных возможностей ИИ-ассистентов. Это исследование, опубликованное на arXiv, затрагивает критические недостатки существующих методов оценки крупных языковых моделей (LLM), использующих внешние инструменты.

ToolSandbox вводит три ключевых элемента, часто игнорируемых другими бенчмарками: управляемая взаимодействия, навыки ведения диалога и динамические оценки. Ведущий автор Джиаруй Лу отметил: «ToolSandbox включает в себя выполнение инструментов с учетом состояний, неявные зависимости состояния между инструментами, встроенный симулятор пользователя для оценки ведения диалога в реальном времени и динамическую стратегию оценки».

Этот бенчмарк предназначен для точного отражения реальных сценариев. Например, он может оценить, понимает ли ИИ-ассистент необходимость включения мобильной связи устройства перед отправкой текстового сообщения — задача, требующая логического мышления о текущем состоянии системы и соответствующих изменений.

Собственные модели превосходят открытые решения, но проблемы сохраняются

В ходе тестирования различных моделей ИИ с использованием ToolSandbox исследователи обнаружили значительное различие в производительности между собственными и открытыми моделями. Этот вывод противоречит недавним утверждениям о том, что открытые ИИ-системы быстро догоняют собственные. Например, недавний бенчмарк стартапа Galileo показал прогресс среди открытых моделей, тогда как Meta и Mistral представили модели, которые, по их словам, соперничают с ведущими собственными системами.

Тем не менее, исследование Apple показало, что даже самые продвинутые ИИ-ассистенты испытывают трудности с комплексными задачами, включающими зависимости состояния, канонизацию (процесс преобразования пользовательских данных в стандартизированные форматы) и ситуации с ограниченной информацией. Авторы отметили: «Мы демонстрируем, что между открытыми и собственными моделями существует значительный разрыв в производительности, и комплексные задачи, определенные в ToolSandbox, представляют собой вызов даже для самых современных LLM, предлагая новые идеи о способностях использования инструментов».

Интересно, что в исследовании показано, что более крупные модели иногда показывали меньшую эффективность по сравнению с меньшими, особенно в сценариях с зависимостями состояния. Это свидетельствует о том, что размер сам по себе не гарантирует высокую производительность в решении сложных, реальных задач.

Понимание сложности производительности ИИ

Создание ToolSandbox может существенно повлиять на развитие и оценку ИИ-ассистентов. Обеспечивая реалистичную среду для тестирования, исследователи смогут лучше выявлять и устранять ключевые ограничения существующих ИИ-систем, что приведет к созданию более мощных и надежных ИИ-ассистентов.

По мере того как ИИ все больше интегрируется в повседневную жизнь, такие бенчмарки, как ToolSandbox, станут жизненно важными для обеспечения того, чтобы эти системы могли справляться с сложностями и тонкостями реальных взаимодействий. Исследовательская команда планирует в скором времени выпустить рамки оценки ToolSandbox на GitHub, призывая более широкое сообщество ИИ принимать участие в совершенствовании этой важной инициативы.

Хотя недавние достижения в области открытого ИИ вызвали энтузиазм по поводу демократизации доступа к передовым инструментам, исследование Apple подчеркивает, что остаются значительные проблемы в создании ИИ-систем, способных справляться со сложными реальными задачами. В условиях быстрого развития области строгие бенчмарки, такие как ToolSandbox, будут иметь решающее значение для отделения шума от реальности и руководства развитием действительно эффективных ИИ-ассистентов.

Улучшение визитов к врачу: как Ген AI изменяет опыт пациентов

Уйди в сторону, Дэвин: Джинн Cosine завоевывает корону в области искусственного интеллекта для программирования

Most people like

NameWith AI

12.5K

Откройте для себя идеальное имя для малыша с помощью нашего инновационного руководства по именам на базе ИИ!

имена для детей Writing Assistants

Humata - ChatGPT for all your files

1.2M

Humata — это мощный инструмент ИИ, предназначенный для мгновенного получения ответов на ваши вопросы, связанные с данными, упрощая доступ к информации и ее использование. Независимо от того, анализируете ли вы сложные наборы данных или ищете быстрые инсайты, Humata делает исследование данных эффективным и удобным для пользователя.

анализ файлов AI Document Extraction

Chub

7.1M

Раскройте весь потенциал своих языковых моделей, эффективно управляя и сотрудничая в разработке персонажей. Независимо от того, создаете ли вы интерактивные истории, разрабатываете уникальные образы или обучаете ИИ понимать разнообразные голоса, мастерство управления персонажами является ключом к достижению реалистичных и увлекательных результатов.

Персонажи AI Character

MacGPT - ChatGPT in your menubar

32K

Резюме: MacGPT обеспечивает легкий доступ к ChatGPT, позволяя пользователям без усилий взаимодействовать с мощным ИИ-инструментом прямо на своем Mac.

MacGPT AI App Builder

Find AI tools in YBX