Инструмент Apple ToolSandbox выявляет явный разрыв: открытый ИИ отстает от проприетарных моделей.

Исследователи компании Apple представили ToolSandbox — инновационный бенчмарк, направленный на всестороннюю оценку реальных возможностей ИИ-ассистентов. Это исследование, опубликованное на arXiv, затрагивает критические недостатки существующих методов оценки крупных языковых моделей (LLM), использующих внешние инструменты.

ToolSandbox вводит три ключевых элемента, часто игнорируемых другими бенчмарками: управляемая взаимодействия, навыки ведения диалога и динамические оценки. Ведущий автор Джиаруй Лу отметил: «ToolSandbox включает в себя выполнение инструментов с учетом состояний, неявные зависимости состояния между инструментами, встроенный симулятор пользователя для оценки ведения диалога в реальном времени и динамическую стратегию оценки».

Этот бенчмарк предназначен для точного отражения реальных сценариев. Например, он может оценить, понимает ли ИИ-ассистент необходимость включения мобильной связи устройства перед отправкой текстового сообщения — задача, требующая логического мышления о текущем состоянии системы и соответствующих изменений.

Собственные модели превосходят открытые решения, но проблемы сохраняются

В ходе тестирования различных моделей ИИ с использованием ToolSandbox исследователи обнаружили значительное различие в производительности между собственными и открытыми моделями. Этот вывод противоречит недавним утверждениям о том, что открытые ИИ-системы быстро догоняют собственные. Например, недавний бенчмарк стартапа Galileo показал прогресс среди открытых моделей, тогда как Meta и Mistral представили модели, которые, по их словам, соперничают с ведущими собственными системами.

Тем не менее, исследование Apple показало, что даже самые продвинутые ИИ-ассистенты испытывают трудности с комплексными задачами, включающими зависимости состояния, канонизацию (процесс преобразования пользовательских данных в стандартизированные форматы) и ситуации с ограниченной информацией. Авторы отметили: «Мы демонстрируем, что между открытыми и собственными моделями существует значительный разрыв в производительности, и комплексные задачи, определенные в ToolSandbox, представляют собой вызов даже для самых современных LLM, предлагая новые идеи о способностях использования инструментов».

Интересно, что в исследовании показано, что более крупные модели иногда показывали меньшую эффективность по сравнению с меньшими, особенно в сценариях с зависимостями состояния. Это свидетельствует о том, что размер сам по себе не гарантирует высокую производительность в решении сложных, реальных задач.

Понимание сложности производительности ИИ

Создание ToolSandbox может существенно повлиять на развитие и оценку ИИ-ассистентов. Обеспечивая реалистичную среду для тестирования, исследователи смогут лучше выявлять и устранять ключевые ограничения существующих ИИ-систем, что приведет к созданию более мощных и надежных ИИ-ассистентов.

По мере того как ИИ все больше интегрируется в повседневную жизнь, такие бенчмарки, как ToolSandbox, станут жизненно важными для обеспечения того, чтобы эти системы могли справляться с сложностями и тонкостями реальных взаимодействий. Исследовательская команда планирует в скором времени выпустить рамки оценки ToolSandbox на GitHub, призывая более широкое сообщество ИИ принимать участие в совершенствовании этой важной инициативы.

Хотя недавние достижения в области открытого ИИ вызвали энтузиазм по поводу демократизации доступа к передовым инструментам, исследование Apple подчеркивает, что остаются значительные проблемы в создании ИИ-систем, способных справляться со сложными реальными задачами. В условиях быстрого развития области строгие бенчмарки, такие как ToolSandbox, будут иметь решающее значение для отделения шума от реальности и руководства развитием действительно эффективных ИИ-ассистентов.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles