Исследователи выявили значительный недостаток в развитии современных чат-ботов. Хотя модели ИИ становятся более точными со временем, они склонны отвечать на вопросы вне своей компетенции, вместо того чтобы признать свое невежество. Это приводит к тому, что пользователи принимают их уверенные, но неверные ответы за чистую монету, что perpetuates цикл дезинформации. «Сегодня они отвечают практически на все», — говорит Хосе Эрнандес-Орралло, профессор Университета Политехника Валенсии в Испании. «Это означает больше правильных ответов, но также и больше неправильных».
Эрнандес-Орралло, ведущий автор исследования, проведенного совместно с коллегами из Валенсийского исследовательского института искусственного интеллекта, исследовали три категории крупных языковых моделей (LLM): серию GPT от OpenAI, LLaMA от Meta и открытый проект BLOOM. Команда изучила различные модели, начиная с относительно простой GPT-3 ada и заканчивая более продвинутой GPT-4, выпущенной в марте 2023 года. Заметьте, что последние версии, GPT-4o и o1-preview, не были включены в их анализ.
Исследователи оценили каждую модель с помощью тысяч вопросов по различным темам, включая арифметику, географию и науку, а также задачи, такие как сортировка списков. Они классифицировали подсказки по их предполагаемой сложности. Результаты показали, что с развитием моделей частота неправильных ответов увеличивалась, указывая на то, что более сложные чат-боты напоминают уверенных в себе профессоров, которые считают, что знают ответы на все вопросы.
Человеческое взаимодействие усугубляет проблему. Добровольцы, приглашенные для оценки точности ответов ИИ, часто неверно классифицировали неправильные ответы как правильные, с уровнем ошибок от 10 до 40 процентов. Эрнандес-Орралло заключил: «Люди не могут эффективно контролировать эти модели».
Чтобы смягчить эту проблему, исследовательская группа предлагает разработчикам ИИ сосредоточиться на улучшении производительности в простых задачах и программировать чат-ботов на отказ от более сложных запросов. «Нам нужно, чтобы люди осознали: "Я могу использовать это в этой области, а в той области не должен"», — добавил Эрнандес-Орралло.
Хотя это разумное предложение, может не быть стимула для компаний по разработке ИИ внедрять его. Чат-боты, которые часто признают, что не знают ответов, могут казаться менее продвинутыми или ценными, что приведет к снижению использования и доходов для разработчиков. В результате мы продолжаем видеть отказы, указывающие на то, что «ChatGPT может ошибаться» или что «Gemini может отображать неточную информацию».
В конечном счете, на нас лежит ответственность проверять и верифицировать ответы, предоставляемые чат-ботами, чтобы избежать распространения неверной информации, которая может причинить вред. Ради точности всегда проверяйте ответы вашего чат-бота.