LiveBench: Открытый Бенчмарк LLM с Тестовыми Данных Без Загрязнения и Объективным Оцениванием

Команда из Abacus.AI, Нью-Йоркского университета, Nvidia, Университета Мэриленда и Университета Южной Калифорнии представила LiveBench — инновационный инструмент для оценки, направленный на преодоление значительных ограничений существующих стандартов отрасли. LiveBench функционирует как универсальный инструмент для оценки больших языковых моделей (LLMs), предоставляя тестовые наборы данных, свободные от загрязнения, которое часто встречается в предыдущих оценках из-за повторного использования данных для различных моделей.

Что такое Бенчмарк?

Бенчмарк — это стандартизированный тест, который оценивает производительность моделей ИИ с помощью различных задач или метрик. Он позволяет исследователям и разработчикам сравнивать результаты, отслеживать достижения и понимать возможности различных моделей.

LiveBench особенно выделяется благодаря участию таких специалистов в области ИИ, как Ян Лекун, главный научный сотрудник Meta, и Колин Уайт, руководитель исследований в Abacus.AI, а также других ведущих исследователей. Голдблюм, один из ключевых участников, подчеркнул необходимость улучшенных бенчмарков для LLM, отметив, что инициатива возникла из необходимости создания свежих разнообразных вопросов для устранения загрязнения тестовых наборов.

Ключевые моменты LiveBench

Рост LLM подчеркивает недостаточность традиционных бенчмарков машинного обучения. Большинство бенчмарков доступны для общественности, и многие современные LLM включают огромные объемы интернет-данных в процессе обучения. Если LLM встречает вопросы бенчмарка во время обучения, его результаты могут выглядеть искусственно завышенными, что вызывает сомнения в надежности таких оценок.

LiveBench стремится устранить эти недостатки, публикуя обновленные вопросы каждый месяц, извлекаемые из разнообразных свежих наборов данных, математических конкурсов, статей arXiv, новостей и синопсисов фильмов IMDb. В настоящее время доступно 960 вопросов, каждый из которых имеет проверяемый, объективный ответ, что позволяет проводить точную оценку без участия судей LLM.

Категории задач

LiveBench включает 18 задач в шести категориях, используя постоянно обновляемые источники информации для повышения разнообразия и сложности вопросов. Категории задач включают:

- Математика: Вопросы из математических конкурсов для старшеклассников и сложные проблемы AMPS.

- Программирование: Генерация кода и новая задача по завершению кода.

- Логическое мышление: Сложные сценарии из веба лжи Big-Bench Hard и позиционного мышления.

- Понимание языка: Задачи с головоломками, исправлением опечаток и расшифровкой синопсисов фильмов.

- Следование инструкциям: Четыре задачи, сосредоточенные на перефразировании, суммировании и создании историй на основе последних статей.

- Анализ данных: Задачи, которые реорганизуют таблицы, определяют объединяемые столбцы и предсказывают типы столбцов с использованием свежих наборов данных.

Модели оцениваются по проценту успеха, который должен составлять от 30% до 70%, в зависимости от сложности задачи.

Рейтинг LLM LiveBench

По состоянию на 12 июня 2024 года LiveBench оценил множество известных LLM, показывая, что лучшие модели достигли менее 60% точности. Например, GPT-4o от OpenAI занимает лидирующую позицию со средним баллом 53.79, чуть впереди GPT-4 Turbo с баллом 53.34.

Последствия для бизнес-лидеров

Навигация в области ИИ представляет собой сложные задачи для бизнес-лидеров, особенно при выборе подходящей LLM. Бенчмарки предоставляют уверенность в производительности моделей, но часто не дают полной картины. Голдблюм подчеркивает, что LiveBench упрощает сравнение моделей, снижая опасения по поводу загрязнения данных и предвзятости в человеческих оценках.

Сравнение с существующими бенчмарками

Команда LiveBench провела анализи по сравнению с установленными бенчмарками, такими как Chatbot Arena от LMSYS и Arena-Hard. Хотя общие тенденции LiveBench в целом совпадают с другими бенчмарками, конкретные расхождения указывают на потенциальные предвзятости, присущие оценке LLM.

LiveBench разработан как инструмент с открытым исходным кодом, позволяющий любому использовать, вносить свой вклад и расширять его возможности. Как отмечает Уайт, эффективные бенчмарки необходимы для разработки высокопроизводительных LLM, что, в свою очередь, ускоряет инновации в моделях. Разработчики могут получить доступ к коду LiveBench через GitHub и использовать его наборы данных на Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles