LMSYS представляет 'Multimodal Arena': GPT-4 возглавляет рейтинг, но ИИ всё ещё не может сравниться с человеческим зрением.

Организация LMSYS запустила свою "Мультимодальную арену" — инновационный рейтинг, который оценивает модели ИИ по их эффективности в задачах, связанных с визуальным восприятием. Всего за две недели арена собрала более 17,000 голосов предпочтений пользователей на более чем 60 языках, демонстрируя текущие возможности ИИ в обработке визуальной информации.

Модель OpenAI GPT-4o занимает первое место в рейтинге Мультимодальной арены, за ней следуют Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google. Этот рейтинг подчеркивает жесткую конкуренцию среди ведущих технологических компаний в быстро меняющемся мире мультимодального ИИ.

Интересно, что открытая модель LLaVA-v1.6-34B продемонстрировала результаты на уровне некоторых проприетарных моделей, таких как Claude 3 Haiku. Это указывает на потенциальную демократизацию передовых возможностей ИИ, предлагая исследователям и небольшим компаниям больший доступ к современным технологиям.

Рейтинг охватывает широкий спектр задач, включая создание описаний для изображений, решение математических задач, понимание документов и интерпретацию мемов. Эта разнообразие стремится предоставить полное представление о визуальных возможностях каждого из моделей, учитывая сложные требования реальных приложений.

Тем не менее, хотя Мультимодальная арена предлагает ценную информацию, она в основном измеряет предпочтения пользователей, а не объективную точность. Более трезвую перспективу представляет недавно введенный бенчмарк CharXiv, разработанный исследователями Принстонского университета, который оценивает эффективность ИИ в интерпретации графиков из научных статей.

Результаты CharXiv выявили значительные ограничения в текущих системах ИИ. Модель GPT-4o, показавшая наилучшие результаты, достигла лишь 47.1% точности, в то время как лучшая открытая модель — 29.2%. Для сравнения, точность человека составляет 80.5%, что подчеркивает значительный разрыв в способности ИИ интерпретировать сложные визуальные данные.

Этот разрыв ставит перед разработчиками ИИ серьезную задачу: несмотря на заметные успехи в таких задачах, как распознавание объектов и базовое создание описаний изображений, ИИ по-прежнему сталкивается с трудностями в нюансированном рассуждении и контекстном понимании, которые люди применяют к визуальной информации.

Появление Мультимодальной арены и выводы из таких бенчмарков, как CharXiv, происходят в важный момент для индустрии ИИ. Поскольку компании стремятся интегрировать мультимодальный ИИ в такие продукты, как виртуальные помощники и автономные автомобили, понимание истинных ограничений этих систем становится все более важным.

Эти бенчмарки служат проверкой реальности, противостоят преувеличенным утверждениям о возможностях ИИ и предоставляют стратегическое направление для исследователей, указывая на области, требующие улучшений для достижения человеческого уровня визуального понимания.

Разрыв между производительностью ИИ и человека в сложных визуальных задачах открывает как проблемы, так и возможности. Это предполагает, что достижения в архитектуре ИИ или методах обучения могут быть необходимы для создания надежного визуального интеллекта, открывая путь к инновациям в компьютерном зрении, обработке естественного языка и когнитивной науке.

По мере того как сообщество ИИ осмысливает эти выводы, стоит ожидать обновленного акцента на разработке моделей, которые способны не только воспринимать, но и действительно понимать визуальный мир. Конкурс за создание систем ИИ, которые когда-нибудь могут достичь или даже превзойти уровень человеческого понимания в сложных задачах визуального рассуждения, только начинается.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles