LMSYS представляет 'Multimodal Arena': GPT-4 возглавляет рейтинг, но ИИ всё ещё не может сравниться с человеческим зрением.

Home Новости ИИ LMSYS представляет 'Multimodal Arena': GPT-4 возглавляет рейтинг, но ИИ всё ещё не может сравниться с человеческим зрением.

Updated on июнь 28 2024

Организация LMSYS запустила свою "Мультимодальную арену" — инновационный рейтинг, который оценивает модели ИИ по их эффективности в задачах, связанных с визуальным восприятием. Всего за две недели арена собрала более 17,000 голосов предпочтений пользователей на более чем 60 языках, демонстрируя текущие возможности ИИ в обработке визуальной информации.

Модель OpenAI GPT-4o занимает первое место в рейтинге Мультимодальной арены, за ней следуют Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google. Этот рейтинг подчеркивает жесткую конкуренцию среди ведущих технологических компаний в быстро меняющемся мире мультимодального ИИ.

Интересно, что открытая модель LLaVA-v1.6-34B продемонстрировала результаты на уровне некоторых проприетарных моделей, таких как Claude 3 Haiku. Это указывает на потенциальную демократизацию передовых возможностей ИИ, предлагая исследователям и небольшим компаниям больший доступ к современным технологиям.

Рейтинг охватывает широкий спектр задач, включая создание описаний для изображений, решение математических задач, понимание документов и интерпретацию мемов. Эта разнообразие стремится предоставить полное представление о визуальных возможностях каждого из моделей, учитывая сложные требования реальных приложений.

Тем не менее, хотя Мультимодальная арена предлагает ценную информацию, она в основном измеряет предпочтения пользователей, а не объективную точность. Более трезвую перспективу представляет недавно введенный бенчмарк CharXiv, разработанный исследователями Принстонского университета, который оценивает эффективность ИИ в интерпретации графиков из научных статей.

Результаты CharXiv выявили значительные ограничения в текущих системах ИИ. Модель GPT-4o, показавшая наилучшие результаты, достигла лишь 47.1% точности, в то время как лучшая открытая модель — 29.2%. Для сравнения, точность человека составляет 80.5%, что подчеркивает значительный разрыв в способности ИИ интерпретировать сложные визуальные данные.

Этот разрыв ставит перед разработчиками ИИ серьезную задачу: несмотря на заметные успехи в таких задачах, как распознавание объектов и базовое создание описаний изображений, ИИ по-прежнему сталкивается с трудностями в нюансированном рассуждении и контекстном понимании, которые люди применяют к визуальной информации.

Появление Мультимодальной арены и выводы из таких бенчмарков, как CharXiv, происходят в важный момент для индустрии ИИ. Поскольку компании стремятся интегрировать мультимодальный ИИ в такие продукты, как виртуальные помощники и автономные автомобили, понимание истинных ограничений этих систем становится все более важным.

Эти бенчмарки служат проверкой реальности, противостоят преувеличенным утверждениям о возможностях ИИ и предоставляют стратегическое направление для исследователей, указывая на области, требующие улучшений для достижения человеческого уровня визуального понимания.

Разрыв между производительностью ИИ и человека в сложных визуальных задачах открывает как проблемы, так и возможности. Это предполагает, что достижения в архитектуре ИИ или методах обучения могут быть необходимы для создания надежного визуального интеллекта, открывая путь к инновациям в компьютерном зрении, обработке естественного языка и когнитивной науке.

По мере того как сообщество ИИ осмысливает эти выводы, стоит ожидать обновленного акцента на разработке моделей, которые способны не только воспринимать, но и действительно понимать визуальный мир. Конкурс за создание систем ИИ, которые когда-нибудь могут достичь или даже превзойти уровень человеческого понимания в сложных задачах визуального рассуждения, только начинается.

Amazon повышает эффективность колл-центров с помощью обновленного ИИ-помощника Q

Откройте для себя передовую модель детекции аудиосигналов от Resemble AI — Detect-2B, обеспечивающую 94% точность в анализе с использованием ИИ.

Most people like

WonsultingAI

583.4K

В условиях современного конкурентного рынка труда найти подходящую позицию может быть непросто. На помощь приходят инструменты поиска работы с использованием ИИ, которые применяют искусственный интеллект для оптимизации и улучшения вашего опыта поиска работы. Анализируя ваши навыки, предпочтения и карьерные цели, эти инновационные платформы соединяют вас с персонализированными возможностями трудоустройства, экономя ваше время и усилия. Откройте для себя будущее рекрутинга и узнайте, как эти умные решения могут преобразить ваш поиск работы в более эффективное и продуктивное путешествие.

Поиск работы с использованием искусственного интеллекта Resume Builder

ComplyCube

82.7K

ComplyCube выделяется как ведущая SaaS-платформа, предлагающая быстрые и точные решения для проверки идентичности клиентов.

идентификация личности AI API Design

Udio AI Music Generator

130.9K

Откройте свою музыкальную креативность с нашей инновационной платформой, которая позволяет создавать уникальные песни с помощью технологий ИИ — абсолютно бесплатно! Независимо от того, начинающий вы музыкант или просто хотите исследовать искусство написания песен, наш инструмент предлагает простой и увлекательный способ создания персонализированной музыки, соответствующей вашему стилю. Начните свое музыкальное путешествие сегодня и откройте безграничные возможности написания песен при поддержке ИИ!

Генератор музыки на основе ИИ AI Singing Generator

SDXL Turbo

444.8K

Испытайте ультрабыструю и качественную генерацию изображений с использованием передовой технологии ADD.

Генерация изображений с помощью ИИ AI Photo & Image Generator

Find AI tools in YBX