LiveBench: Открытый Бенчмарк LLM с Тестовыми Данных Без Загрязнения и Объективным Оцениванием

Home Новости ИИ LiveBench: Открытый Бенчмарк LLM с Тестовыми Данных Без Загрязнения и Объективным Оцениванием

Updated on июнь 12 2024

Команда из Abacus.AI, Нью-Йоркского университета, Nvidia, Университета Мэриленда и Университета Южной Калифорнии представила LiveBench — инновационный инструмент для оценки, направленный на преодоление значительных ограничений существующих стандартов отрасли. LiveBench функционирует как универсальный инструмент для оценки больших языковых моделей (LLMs), предоставляя тестовые наборы данных, свободные от загрязнения, которое часто встречается в предыдущих оценках из-за повторного использования данных для различных моделей.

Что такое Бенчмарк?

Бенчмарк — это стандартизированный тест, который оценивает производительность моделей ИИ с помощью различных задач или метрик. Он позволяет исследователям и разработчикам сравнивать результаты, отслеживать достижения и понимать возможности различных моделей.

LiveBench особенно выделяется благодаря участию таких специалистов в области ИИ, как Ян Лекун, главный научный сотрудник Meta, и Колин Уайт, руководитель исследований в Abacus.AI, а также других ведущих исследователей. Голдблюм, один из ключевых участников, подчеркнул необходимость улучшенных бенчмарков для LLM, отметив, что инициатива возникла из необходимости создания свежих разнообразных вопросов для устранения загрязнения тестовых наборов.

Ключевые моменты LiveBench

Рост LLM подчеркивает недостаточность традиционных бенчмарков машинного обучения. Большинство бенчмарков доступны для общественности, и многие современные LLM включают огромные объемы интернет-данных в процессе обучения. Если LLM встречает вопросы бенчмарка во время обучения, его результаты могут выглядеть искусственно завышенными, что вызывает сомнения в надежности таких оценок.

LiveBench стремится устранить эти недостатки, публикуя обновленные вопросы каждый месяц, извлекаемые из разнообразных свежих наборов данных, математических конкурсов, статей arXiv, новостей и синопсисов фильмов IMDb. В настоящее время доступно 960 вопросов, каждый из которых имеет проверяемый, объективный ответ, что позволяет проводить точную оценку без участия судей LLM.

Категории задач

LiveBench включает 18 задач в шести категориях, используя постоянно обновляемые источники информации для повышения разнообразия и сложности вопросов. Категории задач включают:

- Математика: Вопросы из математических конкурсов для старшеклассников и сложные проблемы AMPS.

- Программирование: Генерация кода и новая задача по завершению кода.

- Логическое мышление: Сложные сценарии из веба лжи Big-Bench Hard и позиционного мышления.

- Понимание языка: Задачи с головоломками, исправлением опечаток и расшифровкой синопсисов фильмов.

- Следование инструкциям: Четыре задачи, сосредоточенные на перефразировании, суммировании и создании историй на основе последних статей.

- Анализ данных: Задачи, которые реорганизуют таблицы, определяют объединяемые столбцы и предсказывают типы столбцов с использованием свежих наборов данных.

Модели оцениваются по проценту успеха, который должен составлять от 30% до 70%, в зависимости от сложности задачи.

Рейтинг LLM LiveBench

По состоянию на 12 июня 2024 года LiveBench оценил множество известных LLM, показывая, что лучшие модели достигли менее 60% точности. Например, GPT-4o от OpenAI занимает лидирующую позицию со средним баллом 53.79, чуть впереди GPT-4 Turbo с баллом 53.34.

Последствия для бизнес-лидеров

Навигация в области ИИ представляет собой сложные задачи для бизнес-лидеров, особенно при выборе подходящей LLM. Бенчмарки предоставляют уверенность в производительности моделей, но часто не дают полной картины. Голдблюм подчеркивает, что LiveBench упрощает сравнение моделей, снижая опасения по поводу загрязнения данных и предвзятости в человеческих оценках.

Сравнение с существующими бенчмарками

Команда LiveBench провела анализи по сравнению с установленными бенчмарками, такими как Chatbot Arena от LMSYS и Arena-Hard. Хотя общие тенденции LiveBench в целом совпадают с другими бенчмарками, конкретные расхождения указывают на потенциальные предвзятости, присущие оценке LLM.

LiveBench разработан как инструмент с открытым исходным кодом, позволяющий любому использовать, вносить свой вклад и расширять его возможности. Как отмечает Уайт, эффективные бенчмарки необходимы для разработки высокопроизводительных LLM, что, в свою очередь, ускоряет инновации в моделях. Разработчики могут получить доступ к коду LiveBench через GitHub и использовать его наборы данных на Hugging Face.

Революционная архитектура трансформеров: раскрытие потенциала мощных LLM без GPU

Запуск Dream Machine от Luma: Мы больше не нуждаемся в Sora – новый генератор видео на основе ИИ вызывает рост трафика

Most people like

Vanchat

6.2K

Узнайте, как искусственный интеллект в виде помощника для Shopify может преобразить взаимодействие с клиентами, увеличивая вовлеченность и стимулируя продажи. Используя современные технологии, этот инновационный инструмент улучшает процесс покупок, делая его плавным и персонализированным для каждого пользователя. Поднимите свой магазин Shopify на новый уровень с помощником, который понимает потребности клиентов.

AI ЧатБот E-commerce Assistant

Tome

1.2M

Откройте для себя революционную платформу на основе ИИ, созданную для разработки и обмена идеями через увлекательный контент, потрясающие изображения и впечатляющие презентации.

На базе ИИ AI Content Generator

Algor Education

1.3M

Преобразование любого текста в концептуальные карты с использованием ИИ. Узнайте, как современные технологии могут визуализировать идеи, углубить понимание и оптимизировать обучение с помощью настраиваемых концептуальных карт, основанных на вашем контенте.

На базе ИИ AI Education Assistant

Heidi

561.3K

В современном быстром темпе здравоохранения врачи часто перегружены административными задачами, отвлекающими их от ухода за пациентами. Здесь на помощь приходит технология искусственного интеллекта для ведения записей — революционное решение, созданное для упрощения документации и повышения эффективности. Используя интеллектуальную транскрипцию и решения для ввода данных, ИИ-свидетели могут сэкономить врачам дни ценного времени, позволяя им сосредоточиться на действительно важном: обеспечении исключительной помощи пациентам.

ИИ Письменник Healthcare

Find AI tools in YBX