GAIA Бенчмарк: Искусственный интеллект нового поколения решает реальные проблемы

Новый эталон искусственного интеллекта GAIA предназначен для оценки способности чат-ботов, таких как ChatGPT, демонстрировать человеческое мышление и навыки в повседневных задачах. Разработанный командой из Meta, Hugging Face, AutoGPT и GenAI, GAIA предлагает реальные вопросы, требующие базовых навыков, таких как логическое мышление, обработка многомодальных данных, поиск в Интернете и владение инструментами, согласно статье исследователей, опубликованной на arXiv.

Исследователи утверждают, что вопросы GAIA "концептуально просты для человека, но сложны для большинства современных ИИ". В их тестах участники-люди набрали впечатляющие 92%, в то время как GPT-4 с плагинами продемонстрировал лишь 15%. "Это заметное различие в результатах контрастирует с недавней тенденцией, когда большие языковые модели [LLMs] превосходят людей в специализированных задачах, таких как право или химия", отмечают авторы.

GAIA фокусируется на человеческом уровне компетенции, а не на экспертизе. В отличие от традиционных эталонов, которые акцентируют внимание на задачах, сложных для людей, исследователи выступают за внимание к задачам, показывающим способность ИИ соответствовать среднему уровню человеческой устойчивости. Команда GAIA разработала 466 реальных вопросов с четкими ответами. Из них 300 остаются закрытыми для формирования публичной таблицы лидеров GAIA, в то время как 166 вопросов и ответов доступны в качестве набора для разработки.

"Решение задач GAIA станет важным достижением в исследовании ИИ", говорит ведущий автор Грегуар Мион из Meta AI. "Мы считаем, что преодоление вызовов, представленных GAIA, является ключевым шагом к следующему поколению систем ИИ."

Текущий разрыв в производительности между людьми и ИИ. На данный момент наивысший результат GAIA принадлежит GPT-4 с вручную подобранными плагинами, достигшему 30% точности. Создатели эталона предполагают, что ИИ, способный решать задачи GAIA, может быть классифицирован как обладающий искусственным общим интеллектом (AGI) в разумные сроки.

"Статья критикует тенденцию тестирования ИИ с помощью сложных экзаменов по математике, науке и праву, отмечая, что задачи, представляющие сложности для людей, не обязательно сложны для современных систем", объясняют авторы.

GAIA акцентирует внимание на практических вопросах, таких как "Какой город принял Евровидение 2022 года согласно официальному сайту?" и "Сколько изображений имеется в последней статье Википедии о Lego за 2022 год?" "Мы утверждаем, что развитие AGI зависит от способности системы демонстрировать аналогичную устойчивость к среднему человеку при решении таких повседневных задач", пишут исследователи.

Потенциальное влияние GAIA на развитие ИИ. Введение GAIA сигнализирует о значительном сдвиге в исследовании ИИ, что может иметь далеко идущие последствия. Подчеркивая человеческую компетенцию в повседневных задачах, а не только специализированные знания, GAIA раздвигает границы существующих эталонов ИИ.

Если будущие ИИ-системы смогут продемонстрировать здравый смысл, адаптивность и логическое мышление, измеряемое с помощью GAIA, это может привести к практическому AGI и улучшенным помощникам, услугам и продуктам на базе ИИ. Однако исследователи предостерегают, что современные чат-боты по-прежнему сталкиваются с серьезными проблемами при решении задач GAIA, что отражает существующие ограничения в логическом мышлении, использовании инструментов и управлении разнообразными сценариями из реального мира.

По мере того как исследователи работают над задачами GAIA, их результаты будут освещать прогресс в создании более компетентных, универсальных и надежных систем ИИ. Более того, такие эталоны, как GAIA, побуждают к критическому мышлению о том, как можно формировать ИИ с приоритетом на человеческие ценности, такие как эмпатия, креативность и этическое принятие решений.

Для заинтересованных лиц таблица лидеров эталона GAIA предоставляет информацию о том, какая языковая модель следующего поколения в настоящее время достигает лучших результатов в этой оценке.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles