Google DeepMind запускает "суперчеловеческую" ИИ-систему: революция в проверке фактов, снижение затрат и повышение точности.

Home Новости ИИ Google DeepMind запускает "суперчеловеческую" ИИ-систему: революция в проверке фактов, снижение затрат и повышение точности.

Updated on март 28 2024

Недавнее исследование от Google DeepMind показало, что система искусственного интеллекта способна превосходить человеческих проверяющих факты в оценке точности информации, созданной крупными языковыми моделями. Статья под названием «Долгосрочная фактическая точность в крупных языковых моделях», опубликованная на arXiv, представляет Оценщик Фактической Точности с Поддержкой Поиска (SAFE). Этот инновационный метод использует крупную языковую модель для анализа сгенерированного текста, выделяя отдельные факты и оценивая их точность с помощью результатов поиска Google.

SAFE основывается на процессе, который включает разбивку длинных ответов на отдельные факты и их оценку через многоступенчатую логику. Это включает выполнение запросов в Google для проверки достоверности информации с использованием соответствующих источников.

Дебаты о «Суперчеловеческом» выступлении

Исследователи сравнили SAFE с человеческими аннотаторами, используя набор данных из примерно 16,000 фактов. В результате выяснилось, что оценки SAFE совпадали с оценками людей в 72% случаев. В выборке из 100 расхождений правильность суждений SAFE составила 76%.

Хотя в статье утверждается, что «агенты LLM могут достигать суперчеловеческой оценки», некоторые эксперты ставят под сомнение это определение. Гари Маркус, известный исследователь в области ИИ, отметил в Twitter, что «суперчеловеческий» может означать «лучше, чем недоплачиваемый работник», а не настоящая проверка фактов человеком. Он привел аналогию с тем, что программное обеспечение для шахмат 1985 года также могло бы считаться суперчеловеческим.

Маркус утверждает, что для проверки заявлений о суперчеловеческой производительности SAFE следует сравнивать с экспертными проверяющими факты, а не с обычными работниками. Важно учитывать квалификацию и методы оценки human annotators для точной интерпретации этих результатов.

Экономия затрат и оценка моделей

Одним из заметных преимуществ SAFE является его экономичность; исследователи обнаружили, что использование системы ИИ стоит примерно в 20 раз дешевле, чем привлечение человеческих проверяющих факты. С учетом растущего объема информации, создаваемой языковыми моделями, наличие доступного и масштабируемого решения для проверки заявлений становится критически важным.

Команда DeepMind применяла SAFE для оценки фактической точности 13 ведущих языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2), используя новый стандарт, названный LongFact. Их результаты показывают, что более крупные модели, как правило, совершают меньше фактических ошибок. Однако даже самые высокоэффективные модели все еще генерируют значительное количество неточностей, подчеркивая необходимость осторожности при использовании языковых моделей, способных передавать вводящую в заблуждение информацию. Инструменты вроде SAFE могут помочь в снижении этих рисков.

Необходимость прозрачности и человеческих базовых стандартов

Хотя код для SAFE и набор данных LongFact доступны на GitHub для дальнейшего изучения и развития, требуется больше прозрачности в отношении использованных человеческих базовых стандартов. Понимание квалификации и процессов работников важно для контекстуализации работы SAFE.

По мере того как технологические компании стремятся разрабатывать все более сложные языковые модели для различных приложений, способность автоматически проверять факты их выводов может стать критически важной. Инновации, такие как SAFE, становятся значительным шагом к установлению доверия и подотчетности в информации, создаваемой ИИ.

Однако важно, чтобы развитие таких значимых технологий происходило прозрачно, с вовлечением различных заинтересованных сторон, а не лишь одной организации. Тщательная и прозрачная оценка по сравнению с настоящими экспертами — а не только с работниками — станет ключом к измерению подлинных достижений. Только так мы сможем по-настоящему понять эффективность автоматической проверки фактов в борьбе с дезинформацией.

Илон Маск представляет Grok-1.5: приближение к достижениям GPT-4

SambaNova запускает AI Samba-CoE v0.2: превосходит Databricks DBRX в инновациях и производительности

Most people like

CartoonGen

16.2K

Откройте магию генерации мультфильмов на основе ИИ с нашими инновационными инструментами, которые превращают текст или изображения в потрясающие анимации в стиле Pixar. Эта захватывающая технология позволяет создавать ярких и увлекательных персонажей и сцены, отражающие игривое очарование фильмов Pixar, оживляя ваши идеи как никогда раньше. Независимо от того, ищете ли вы вдохновение в качестве создателя или просто хотите развлечься, погружайтесь в мир мультфильмов в стиле Pixar на основе ИИ уже сегодня!

Генератор AI-карактера AI Photo & Image Generator

Sora

551.1M

Представляем AI-модель, созданную для превращения текста в яркие сцены. Эта инновационная технология революционизирует повествование, оживляя воображение через удивительные визуальные образы. Будь вы писателем, исследующим новые творческие направления, или маркетологом, стремящимся повысить вовлеченность, эта AI-модель предлагает уникальный способ визуализировать концепции и идеи. Познайте будущее визуального повествования с мощными возможностями AI, которые превращают слова в захватывающие образы.

ИИ Text to Video

Beacons

20.1M

Откройте для себя уникальную платформу на базе ИИ, созданную специально для создателей контента. Раскройте свой творческий потенциал с помощью передовых инструментов, которые упрощают создание, редактирование и распространение контента. Оптимизируйте свой рабочий процесс и взаимодействуйте с аудиторией, как никогда ранее, благодаря мощным функциям, разработанным для улучшения ваших творческих проектов. Присоединяйтесь к революции в создании контента уже сегодня!

Создатели контента Bio Link

Firstup

9.5K

В современном быстро развивающемся рабочем окружении повышение вовлеченности сотрудников имеет ключевое значение для успеха организации. Платформа для вовлечения сотрудников на основе ИИ использует передовые технологии для повышения мотивации, сотрудничества и общей продуктивности команд. Используя основанные на данных аналитические выкладки и персонализированные стратегии, это инновационное решение помогает компаниям создать более связанный и мотивированный коллектив, что, в свою очередь, способствует повышению эффективности и удержанию сотрудников. Узнайте, как подход с акцентом на ИИ может трансформировать стратегии вовлечения вашей организации и привести к процветающей корпоративной культуре.

Участие сотрудников AI Analytics Assistant

Find AI tools in YBX