Индекс Галилео Галации показывает, что GPT-4 является лучшей языковой моделью (LLM) по разнообразным сферам применения.

Home Новости ИИ Индекс Галилео Галации показывает, что GPT-4 является лучшей языковой моделью (LLM) по разнообразным сферам применения.

Updated on ноябрь 15 2023

Новый индекс галлюцинаций от компании Galileo, расположенной в Сан-Франциско, который помогает предприятиям в разработке, совершенствовании и мониторинге приложений на основе больших языковых моделей (LLM), показывает, что модель GPT-4 от OpenAI демонстрирует наименьшее количество галлюцинаций при выполнении различных задач.

Индекс, опубликованный сегодня, оценил почти десяток как открытых, так и закрытых LLM, включая серию Llama от Meta, сравнив их эффективность для определения модели с наименьшим уровнем галлюцинаций. Результаты показывают, что, несмотря на разнообразие моделей и их поведения в разных задачах, системы OpenAI последовательно превосходят конкурентов в нескольких сценариях. Этот индекс ориентирован на помощь предприятиям в преодолении проблемы галлюцинаций, значительного барьера для широкого применения LLM в критически важных секторах, таких как здравоохранение.

Отслеживание галлюцинаций в LLM: сложная задача

Несмотря на высокий интерес предприятий к генеративному ИИ и внедрению LLM, часто возникают проблемы с производительностью. Модели могут давать ответы, которые не всегда являются фактически правильными, поскольку они основываются на векторных базах данных, определяющих связанные термины и концепции, а не на истине.

«Существует множество факторов, влияющих на внедрение продуктов генеративного ИИ. Например, предназначен ли ваш инструмент для генерации историй по простым подсказкам или это чат-бот, отвечающий на вопросы клиентов на основе конфиденциальной информации?» — объяснил Атиндрио Саньял, соучредитель и технический директор компании Galileo.

В настоящее время предприятия используют бенчмарки для оценки производительности моделей, но комплексной оценки частоты галлюцинаций на данный момент не было. Чтобы решить эту проблему, Саньял и его команда оценили одиннадцать известных открытых и закрытых LLM по трем общеупотребительным задачам: вопрос-ответ без использование RAG (принадлежности к источникам), вопрос-ответ с RAG и генерация длинного текста.

«Мы выбрали семь популярных наборов данных, признанных строгими бенчмарками, чтобы эффективно протестировать возможности каждой модели в отношении задач», — отметил Саньял. Например, в категории вопрос-ответ без RAG они использовали такие наборы данных, как TruthfulQA и TriviaQA, чтобы измерить, насколько эффективно модели справляются с общими запросами.

Команда Galileo уменьшила объемы наборов данных и аннотировала их для установления «истинной базы» для оценки точности. Они применили свои собственные метрики корректности и соблюдения контекста для оценки результатов.

«Эти метрики позволяют инженерам и дата-сайентистам эффективно выявлять галлюцинации. Корректность фокусируется на логических ошибках и оценке вопросов-ответов без RAG и генерации длинного текста, а соблюдение контекста оценивает логику в предоставленных документах, используемых для вопросов-ответов с RAG», — подробнее объяснил Саньял.

Обзор производительности

В категории вопрос-ответ без RAG модели GPT от OpenAI стали лидерами, при этом GPT-4-0613 достигла оценку корректности 0.77. За ней следуют GPT-3.5 Turbo-1106 (0.74), GPT-3.5-Turbo-Instruct (0.70) и GPT-3.5-Turbo-0613 (0.70). Модель Llama-2-70b от Meta оказалась ближайшим конкурентом с результатом 0.65, в то время как Llama-2-7b-chat и Mosaic ML’s MPT-7b-instruct набрали 0.52 и 0.40 соответственно.

В задачи по извлечению GPT-4-0613 снова показала наилучшие результаты, получив 0.76 за соблюдение контекста, а за ней следуют GPT-3.5-Turbo-0613 и -1106 с результатами 0.75 и 0.74 соответственно. Впечатляюще, что Zephyr-7b от Hugging Face набрала 0.71, опередив Llama-2-70b (0.68). Модели Falcon-40b из ОАЭ и Mosaic ML’s MPT-7b показали необходимость улучшения с оценками 0.60 и 0.58.

Для задач по генерации длинного текста как GPT-4-0613, так и Llama-2-70b получили высокие оценки 0.83 и 0.82 соответственно, что указывает на минимальное количество галлюцинаций. GPT-3.5-Turbo-1106 равнялся на Llama, а 0613 версия следовала близко с оценкой 0.81. MPT-7b отстала с 0.53.

Баланс между производительностью и затратами

Хотя GPT-4 от OpenAI сохраняет превосходную производительность в различных задачах, цены на API могут существенно увеличить расходы. Galileo предлагает командам рассмотреть модели GPT-3.5-Turbo для сопоставимой производительности с меньшими затратами. Кроме того, открытые модели, такие как Llama-2-70b, могут предложить баланс между производительностью и доступностью.

Важно отметить, что этот индекс будет развиваться, поскольку новые модели будут появляться, а существующие будут улучшаться. Galileo планирует обновлять индекс ежеквартально, чтобы предоставить командам актуальные рейтинги LLM в отношении их склонности к галлюцинациям в различных задачах.

«Наша цель — предоставить командам надежную основу для работы с галлюцинациями. Хотя мы не ожидаем, что Индекс галлюцинаций станет окончательным, мы надеемся, что он послужит всеобъемлющей отправной точкой для их инициатив в области генеративного ИИ», — добавил Саньял.

Ramp, стартап по выпуску корпоративных карт, безупречно интегрируется с Microsoft Teams и 365 Copilot для повышения продуктивности.

Смелый шаг Microsoft в Генеративный ИИ: Основные объявления на Ignite 2023

Most people like

MolyPix.AI

50.5K

Создайте потрясающие, настраиваемые дизайны, которые вам понравится редактировать

Инструмент для дизайна на основе ИИ Text to Image

mixart.ai

14.1K

Легко преобразуйте и создавайте потрясающие фотографии с помощью передовых инструментов ИИ от Mixart.ai

Другие Text to Image

Chatfuel

377.6K

Chatfuel, признанный официальным партнером API WhatsApp, предлагает мощную платформу для обмена сообщениями, разработанную для эффективного бизнес-общения. Раскройте потенциал упрощенных взаимодействий с клиентами и улучшите вовлеченность вашего бренда с помощью этого инновационного решения.

Чатфьюэл AI Chatbot

Dover | Sourcing Autopilot

551.8K

Dover — это инновационная платформа, созданная для оптимизации процессов рекрутинга, которая без усилий соединяет компании с выдающимися талантами.

платформа для рекрутинга AI Recruiting

Find AI tools in YBX