GPT-4 от OpenAI стал ведущей моделью обработки естественного языка (LLM) в снижении числа "галлюцинаций" при резюмировании документов, согласно недавней оценке компании Vectara. Vectara представила обширный рейтинг на GitHub, который оценивал основные LLM с использованием своей модели оценки галлюцинаций. Эта модель quantifies частоту галлюцинаций — случаев, когда ИИ генерирует неточную или вымышленную информацию — во время резюмирования документов.
Обе модели, GPT-4 и её вариант GPT-4 Turbo, показали выдающиеся результаты с максимальной точностью 97% и минимальной долей галлюцинаций в 3%. На втором месте оказался GPT-3.5 Turbo с впечатляющей точностью 96,5% и немного большей долей галлюцинаций — 3,5%.
Среди конкурентных моделей, не относящихся к OpenAI, версия Llama 2 от Meta с 70 миллиардами параметров показала себя достойно, набрав 94,9% точности и 5,1% галлюцинаций. В отличие от них модели Google показали худшие результаты. Google Palm 2 продемонстрировал точность 87,9% и 12,1% галлюцинаций, в то время как его версия для чата показала еще более низкие показатели — всего 72,8% точности и наивысшую долю галлюцинаций в 27,2%.
Интересно, что Google Palm 2 Chat выдал наибольшее среднее количество слов в резюме — 221 слово, в то время как GPT-4 генерировал в среднем 81 слово.
Методология Оценки
Оценка Vectara, направленная на выявление галлюцинаций в выходных данных LLM, использовала открытые наборы данных. Компания протестировала каждую модель на 1 000 коротких документов, требуя резюме, основанные исключительно на предоставленном содержании. Однако только 831 документ был резюмирован каждой моделью, так как остальные были отфильтрованы из-за ограничений контента. По документам, доступным для всех моделей, Vectara вычислила общую точность и долю галлюцинаций.
Важно отметить, что хотя тестируемый контент не содержал незаконных и "неприемлемых" материалов, наличие определенных триггерных слов привело к ограничению контента некоторых моделей.
Решение Проблем Галлюцинаций
Проблема галлюцинаций является значительным барьером для широкого внедрения генеративного ИИ в предприятиях. Шейн Коннелли, глава продукта Vectara, подчеркнул в своем блоге историческую сложность в эффективной количественной оценке галлюцинаций. Предыдущие попытки часто были слишком абстрактными или касались спорных тем, что ограничивало их практическое применение для бизнеса.
Модель оценки галлюцинаций, созданная Vectara, является открытым исходным кодом, что позволяет организациям использовать её для оценки надежности своих языковых моделей в рамках Retrieval Augmented Generation (RAG). Эта модель доступна через Hugging Face, что дает пользователям возможность настраивать её в соответствии с их уникальными требованиями.
Как отмечает Коннелли: "Наша цель — обеспечить предприятия необходимыми данными для уверенного внедрения генеративных систем через тщательный и количественный анализ." Предоставляя более четкое понимание выходных данных ИИ, бизнес может лучше ориентироваться в нюансах технологии генеративного ИИ.