Таблица лидеров: GPT-4 от OpenAI демонстрирует наименьший уровень галлюцинаций

Home Новости ИИ Таблица лидеров: GPT-4 от OpenAI демонстрирует наименьший уровень галлюцинаций

Updated on октябрь 25 2024

GPT-4 от OpenAI стал ведущей моделью обработки естественного языка (LLM) в снижении числа "галлюцинаций" при резюмировании документов, согласно недавней оценке компании Vectara. Vectara представила обширный рейтинг на GitHub, который оценивал основные LLM с использованием своей модели оценки галлюцинаций. Эта модель quantifies частоту галлюцинаций — случаев, когда ИИ генерирует неточную или вымышленную информацию — во время резюмирования документов.

Обе модели, GPT-4 и её вариант GPT-4 Turbo, показали выдающиеся результаты с максимальной точностью 97% и минимальной долей галлюцинаций в 3%. На втором месте оказался GPT-3.5 Turbo с впечатляющей точностью 96,5% и немного большей долей галлюцинаций — 3,5%.

Среди конкурентных моделей, не относящихся к OpenAI, версия Llama 2 от Meta с 70 миллиардами параметров показала себя достойно, набрав 94,9% точности и 5,1% галлюцинаций. В отличие от них модели Google показали худшие результаты. Google Palm 2 продемонстрировал точность 87,9% и 12,1% галлюцинаций, в то время как его версия для чата показала еще более низкие показатели — всего 72,8% точности и наивысшую долю галлюцинаций в 27,2%.

Интересно, что Google Palm 2 Chat выдал наибольшее среднее количество слов в резюме — 221 слово, в то время как GPT-4 генерировал в среднем 81 слово.

Методология Оценки

Оценка Vectara, направленная на выявление галлюцинаций в выходных данных LLM, использовала открытые наборы данных. Компания протестировала каждую модель на 1 000 коротких документов, требуя резюме, основанные исключительно на предоставленном содержании. Однако только 831 документ был резюмирован каждой моделью, так как остальные были отфильтрованы из-за ограничений контента. По документам, доступным для всех моделей, Vectara вычислила общую точность и долю галлюцинаций.

Важно отметить, что хотя тестируемый контент не содержал незаконных и "неприемлемых" материалов, наличие определенных триггерных слов привело к ограничению контента некоторых моделей.

Решение Проблем Галлюцинаций

Проблема галлюцинаций является значительным барьером для широкого внедрения генеративного ИИ в предприятиях. Шейн Коннелли, глава продукта Vectara, подчеркнул в своем блоге историческую сложность в эффективной количественной оценке галлюцинаций. Предыдущие попытки часто были слишком абстрактными или касались спорных тем, что ограничивало их практическое применение для бизнеса.

Модель оценки галлюцинаций, созданная Vectara, является открытым исходным кодом, что позволяет организациям использовать её для оценки надежности своих языковых моделей в рамках Retrieval Augmented Generation (RAG). Эта модель доступна через Hugging Face, что дает пользователям возможность настраивать её в соответствии с их уникальными требованиями.

Как отмечает Коннелли: "Наша цель — обеспечить предприятия необходимыми данными для уверенного внедрения генеративных систем через тщательный и количественный анализ." Предоставляя более четкое понимание выходных данных ИИ, бизнес может лучше ориентироваться в нюансах технологии генеративного ИИ.

Прорыв: Две ИИ-системы успешно заключили собственный контракт.

OpenAI стремилась к слиянию с Anthropic: Сэм Олтман назван 'мучеником'

Most people like

Userdesk

Быстро создавайте ИИ-ChatBot'ы, настроенные под ваши данные, всего за несколько минут.

ИИ AI Chatbot

200+ ChatGPT Mega-Prompts for Business

78.9K

Откройте силу ИИ с нашей окончательной коллекцией мега-запросов ChatGPT, предназначенных для эффективного улучшения, оптимизации и масштабирования вашего бизнеса. Применяйте инновационные стратегии, которые будут способствовать росту и эффективности в условиях современной конкурентной среды.

Генерация лидов Writing Assistants

Kaiden AI

6.1K

Использование голосовых симуляций ИИ для повышения профессиональных навыков В стремительно меняющемся рабочем мире эффективное общение и специализированные навыки играют ключевую роль. Голосовые симуляции ИИ революционизируют обучение профессиональным навыкам, предлагая погружающие и реалистичные практические занятия. Эти современные инструменты нацелены на улучшение результатов обучения, повышение уверенности и развитие необходимых компетенций в различных отраслях. Узнайте, как голосовые симуляции ИИ могут изменить ваши тренинговые инициативы и подготовить вас к успеху на конкурентном рынке труда.

Решения для обучения ИИ AI Interview Assistant

HighlightFactCheck.com

Комплексная платформа, созданная для быстрого и точного онлайн-фактчекинга.

проверка фактов Other

Find AI tools in YBX