Индекс Галилео Галации показывает, что GPT-4 является лучшей языковой моделью (LLM) по разнообразным сферам применения.

Новый индекс галлюцинаций от компании Galileo, расположенной в Сан-Франциско, который помогает предприятиям в разработке, совершенствовании и мониторинге приложений на основе больших языковых моделей (LLM), показывает, что модель GPT-4 от OpenAI демонстрирует наименьшее количество галлюцинаций при выполнении различных задач.

Индекс, опубликованный сегодня, оценил почти десяток как открытых, так и закрытых LLM, включая серию Llama от Meta, сравнив их эффективность для определения модели с наименьшим уровнем галлюцинаций. Результаты показывают, что, несмотря на разнообразие моделей и их поведения в разных задачах, системы OpenAI последовательно превосходят конкурентов в нескольких сценариях. Этот индекс ориентирован на помощь предприятиям в преодолении проблемы галлюцинаций, значительного барьера для широкого применения LLM в критически важных секторах, таких как здравоохранение.

Отслеживание галлюцинаций в LLM: сложная задача

Несмотря на высокий интерес предприятий к генеративному ИИ и внедрению LLM, часто возникают проблемы с производительностью. Модели могут давать ответы, которые не всегда являются фактически правильными, поскольку они основываются на векторных базах данных, определяющих связанные термины и концепции, а не на истине.

«Существует множество факторов, влияющих на внедрение продуктов генеративного ИИ. Например, предназначен ли ваш инструмент для генерации историй по простым подсказкам или это чат-бот, отвечающий на вопросы клиентов на основе конфиденциальной информации?» — объяснил Атиндрио Саньял, соучредитель и технический директор компании Galileo.

В настоящее время предприятия используют бенчмарки для оценки производительности моделей, но комплексной оценки частоты галлюцинаций на данный момент не было. Чтобы решить эту проблему, Саньял и его команда оценили одиннадцать известных открытых и закрытых LLM по трем общеупотребительным задачам: вопрос-ответ без использование RAG (принадлежности к источникам), вопрос-ответ с RAG и генерация длинного текста.

«Мы выбрали семь популярных наборов данных, признанных строгими бенчмарками, чтобы эффективно протестировать возможности каждой модели в отношении задач», — отметил Саньял. Например, в категории вопрос-ответ без RAG они использовали такие наборы данных, как TruthfulQA и TriviaQA, чтобы измерить, насколько эффективно модели справляются с общими запросами.

Команда Galileo уменьшила объемы наборов данных и аннотировала их для установления «истинной базы» для оценки точности. Они применили свои собственные метрики корректности и соблюдения контекста для оценки результатов.

«Эти метрики позволяют инженерам и дата-сайентистам эффективно выявлять галлюцинации. Корректность фокусируется на логических ошибках и оценке вопросов-ответов без RAG и генерации длинного текста, а соблюдение контекста оценивает логику в предоставленных документах, используемых для вопросов-ответов с RAG», — подробнее объяснил Саньял.

Обзор производительности

В категории вопрос-ответ без RAG модели GPT от OpenAI стали лидерами, при этом GPT-4-0613 достигла оценку корректности 0.77. За ней следуют GPT-3.5 Turbo-1106 (0.74), GPT-3.5-Turbo-Instruct (0.70) и GPT-3.5-Turbo-0613 (0.70). Модель Llama-2-70b от Meta оказалась ближайшим конкурентом с результатом 0.65, в то время как Llama-2-7b-chat и Mosaic ML’s MPT-7b-instruct набрали 0.52 и 0.40 соответственно.

В задачи по извлечению GPT-4-0613 снова показала наилучшие результаты, получив 0.76 за соблюдение контекста, а за ней следуют GPT-3.5-Turbo-0613 и -1106 с результатами 0.75 и 0.74 соответственно. Впечатляюще, что Zephyr-7b от Hugging Face набрала 0.71, опередив Llama-2-70b (0.68). Модели Falcon-40b из ОАЭ и Mosaic ML’s MPT-7b показали необходимость улучшения с оценками 0.60 и 0.58.

Для задач по генерации длинного текста как GPT-4-0613, так и Llama-2-70b получили высокие оценки 0.83 и 0.82 соответственно, что указывает на минимальное количество галлюцинаций. GPT-3.5-Turbo-1106 равнялся на Llama, а 0613 версия следовала близко с оценкой 0.81. MPT-7b отстала с 0.53.

Баланс между производительностью и затратами

Хотя GPT-4 от OpenAI сохраняет превосходную производительность в различных задачах, цены на API могут существенно увеличить расходы. Galileo предлагает командам рассмотреть модели GPT-3.5-Turbo для сопоставимой производительности с меньшими затратами. Кроме того, открытые модели, такие как Llama-2-70b, могут предложить баланс между производительностью и доступностью.

Важно отметить, что этот индекс будет развиваться, поскольку новые модели будут появляться, а существующие будут улучшаться. Galileo планирует обновлять индекс ежеквартально, чтобы предоставить командам актуальные рейтинги LLM в отношении их склонности к галлюцинациям в различных задачах.

«Наша цель — предоставить командам надежную основу для работы с галлюцинациями. Хотя мы не ожидаем, что Индекс галлюцинаций станет окончательным, мы надеемся, что он послужит всеобъемлющей отправной точкой для их инициатив в области генеративного ИИ», — добавил Саньял.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles