Недавнее исследование от Google DeepMind показало, что система искусственного интеллекта способна превосходить человеческих проверяющих факты в оценке точности информации, созданной крупными языковыми моделями. Статья под названием «Долгосрочная фактическая точность в крупных языковых моделях», опубликованная на arXiv, представляет Оценщик Фактической Точности с Поддержкой Поиска (SAFE). Этот инновационный метод использует крупную языковую модель для анализа сгенерированного текста, выделяя отдельные факты и оценивая их точность с помощью результатов поиска Google.
SAFE основывается на процессе, который включает разбивку длинных ответов на отдельные факты и их оценку через многоступенчатую логику. Это включает выполнение запросов в Google для проверки достоверности информации с использованием соответствующих источников.
Дебаты о «Суперчеловеческом» выступлении
Исследователи сравнили SAFE с человеческими аннотаторами, используя набор данных из примерно 16,000 фактов. В результате выяснилось, что оценки SAFE совпадали с оценками людей в 72% случаев. В выборке из 100 расхождений правильность суждений SAFE составила 76%.
Хотя в статье утверждается, что «агенты LLM могут достигать суперчеловеческой оценки», некоторые эксперты ставят под сомнение это определение. Гари Маркус, известный исследователь в области ИИ, отметил в Twitter, что «суперчеловеческий» может означать «лучше, чем недоплачиваемый работник», а не настоящая проверка фактов человеком. Он привел аналогию с тем, что программное обеспечение для шахмат 1985 года также могло бы считаться суперчеловеческим.
Маркус утверждает, что для проверки заявлений о суперчеловеческой производительности SAFE следует сравнивать с экспертными проверяющими факты, а не с обычными работниками. Важно учитывать квалификацию и методы оценки human annotators для точной интерпретации этих результатов.
Экономия затрат и оценка моделей
Одним из заметных преимуществ SAFE является его экономичность; исследователи обнаружили, что использование системы ИИ стоит примерно в 20 раз дешевле, чем привлечение человеческих проверяющих факты. С учетом растущего объема информации, создаваемой языковыми моделями, наличие доступного и масштабируемого решения для проверки заявлений становится критически важным.
Команда DeepMind применяла SAFE для оценки фактической точности 13 ведущих языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2), используя новый стандарт, названный LongFact. Их результаты показывают, что более крупные модели, как правило, совершают меньше фактических ошибок. Однако даже самые высокоэффективные модели все еще генерируют значительное количество неточностей, подчеркивая необходимость осторожности при использовании языковых моделей, способных передавать вводящую в заблуждение информацию. Инструменты вроде SAFE могут помочь в снижении этих рисков.
Необходимость прозрачности и человеческих базовых стандартов
Хотя код для SAFE и набор данных LongFact доступны на GitHub для дальнейшего изучения и развития, требуется больше прозрачности в отношении использованных человеческих базовых стандартов. Понимание квалификации и процессов работников важно для контекстуализации работы SAFE.
По мере того как технологические компании стремятся разрабатывать все более сложные языковые модели для различных приложений, способность автоматически проверять факты их выводов может стать критически важной. Инновации, такие как SAFE, становятся значительным шагом к установлению доверия и подотчетности в информации, создаваемой ИИ.
Однако важно, чтобы развитие таких значимых технологий происходило прозрачно, с вовлечением различных заинтересованных сторон, а не лишь одной организации. Тщательная и прозрачная оценка по сравнению с настоящими экспертами — а не только с работниками — станет ключом к измерению подлинных достижений. Только так мы сможем по-настоящему понять эффективность автоматической проверки фактов в борьбе с дезинформацией.