31 марта в свежих отчетах сообщается, что, несмотря на достижения в технологиях ИИ-чатботов, по-прежнему существует общая проблема: эти системы часто предоставляют фактически неверные ответы. Это явление, известное как "галлюцинация", происходит, когда ИИ генерирует информацию, которая выглядит достоверной, но на самом деле является ошибочной.
Чтобы решить эту задачу, исследователи из Google DeepMind и Стэнфордского университета разработали инструмент под названием Search-Enhanced Fact Evaluator (SAFE). Этот инструмент использует крупные языковые модели для проверки фактов в длинных ответах, сгенерированных чатботами. Результаты их исследований, экспериментальный код и наборы данных были опубликованы.
Система SAFE проверяет точность и достоверность ответов, созданных ИИ, в четыре этапа: сначала она разбивает ответ на отдельные утверждения, которые нужно проверить. Затем исправляет эти утверждения по мере необходимости. Третьим шагом является сравнение утверждений с результатами поиска в Google. Наконец, система оценивает актуальность каждого факта по отношению к исходному запросу.
Чтобы оценить эффективность системы, исследователи создали набор данных под названием LongFact, который содержит примерно 16,000 фактов, и протестировали SAFE на 13 крупных языковых моделях, включая Claude, Gemini, GPT и PaLM-2. Результаты показали, что при анализе 100 спорных фактов SAFE достигла точности 76% после дополнительной проверки. Кроме того, система демонстрирует значительную экономию затрат, расходы составляют более чем в 20 раз меньше, чем при ручной аннотации. Это достижение является важным шагом к улучшению надежности ИИ-чатботов.