Google DeepMind запускает "суперчеловеческую" ИИ-систему: революция в проверке фактов, снижение затрат и повышение точности.

Home Новости ИИ Google DeepMind запускает "суперчеловеческую" ИИ-систему: революция в проверке фактов, снижение затрат и повышение точности.

Updated on март 28 2024

Недавнее исследование от Google DeepMind показало, что система искусственного интеллекта способна превосходить человеческих проверяющих факты в оценке точности информации, созданной крупными языковыми моделями. Статья под названием «Долгосрочная фактическая точность в крупных языковых моделях», опубликованная на arXiv, представляет Оценщик Фактической Точности с Поддержкой Поиска (SAFE). Этот инновационный метод использует крупную языковую модель для анализа сгенерированного текста, выделяя отдельные факты и оценивая их точность с помощью результатов поиска Google.

SAFE основывается на процессе, который включает разбивку длинных ответов на отдельные факты и их оценку через многоступенчатую логику. Это включает выполнение запросов в Google для проверки достоверности информации с использованием соответствующих источников.

Дебаты о «Суперчеловеческом» выступлении

Исследователи сравнили SAFE с человеческими аннотаторами, используя набор данных из примерно 16,000 фактов. В результате выяснилось, что оценки SAFE совпадали с оценками людей в 72% случаев. В выборке из 100 расхождений правильность суждений SAFE составила 76%.

Хотя в статье утверждается, что «агенты LLM могут достигать суперчеловеческой оценки», некоторые эксперты ставят под сомнение это определение. Гари Маркус, известный исследователь в области ИИ, отметил в Twitter, что «суперчеловеческий» может означать «лучше, чем недоплачиваемый работник», а не настоящая проверка фактов человеком. Он привел аналогию с тем, что программное обеспечение для шахмат 1985 года также могло бы считаться суперчеловеческим.

Маркус утверждает, что для проверки заявлений о суперчеловеческой производительности SAFE следует сравнивать с экспертными проверяющими факты, а не с обычными работниками. Важно учитывать квалификацию и методы оценки human annotators для точной интерпретации этих результатов.

Экономия затрат и оценка моделей

Одним из заметных преимуществ SAFE является его экономичность; исследователи обнаружили, что использование системы ИИ стоит примерно в 20 раз дешевле, чем привлечение человеческих проверяющих факты. С учетом растущего объема информации, создаваемой языковыми моделями, наличие доступного и масштабируемого решения для проверки заявлений становится критически важным.

Команда DeepMind применяла SAFE для оценки фактической точности 13 ведущих языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2), используя новый стандарт, названный LongFact. Их результаты показывают, что более крупные модели, как правило, совершают меньше фактических ошибок. Однако даже самые высокоэффективные модели все еще генерируют значительное количество неточностей, подчеркивая необходимость осторожности при использовании языковых моделей, способных передавать вводящую в заблуждение информацию. Инструменты вроде SAFE могут помочь в снижении этих рисков.

Необходимость прозрачности и человеческих базовых стандартов

Хотя код для SAFE и набор данных LongFact доступны на GitHub для дальнейшего изучения и развития, требуется больше прозрачности в отношении использованных человеческих базовых стандартов. Понимание квалификации и процессов работников важно для контекстуализации работы SAFE.

По мере того как технологические компании стремятся разрабатывать все более сложные языковые модели для различных приложений, способность автоматически проверять факты их выводов может стать критически важной. Инновации, такие как SAFE, становятся значительным шагом к установлению доверия и подотчетности в информации, создаваемой ИИ.

Однако важно, чтобы развитие таких значимых технологий происходило прозрачно, с вовлечением различных заинтересованных сторон, а не лишь одной организации. Тщательная и прозрачная оценка по сравнению с настоящими экспертами — а не только с работниками — станет ключом к измерению подлинных достижений. Только так мы сможем по-настоящему понять эффективность автоматической проверки фактов в борьбе с дезинформацией.

Илон Маск представляет Grok-1.5: приближение к достижениям GPT-4

SambaNova запускает AI Samba-CoE v0.2: превосходит Databricks DBRX в инновациях и производительности

Most people like

Gainsty

22.2K

Разблокируйте рост органических подписчиков в Instagram с нашей платформой на базе ИИ. Наш инновационный инструмент, разработанный для улучшения вашего присутствия в социальных сетях, использует передовые алгоритмы для эффективного взаимодействия с вашей целевой аудиторией. Ощутите безупречный процесс привлечения настоящих подписчиков и органичного увеличения охвата вашего бренда. Присоединяйтесь к нам и измените свою стратегию в Instagram уже сегодня!

Платформа для роста в Instagram AI Instagram Assistant

myStylus

62.4K

Представляем нашу платформу ИИ, созданную специально для написания, редактирования и исследований. Этот инновационный инструмент использует мощь искусственного интеллекта, чтобы улучшить ваши писательские навыки, упростить процесс редактирования и поддержать глубокое исследование. Будь вы студент, профессионал или креативный мыслитель, наша платформа ИИ призвана поднять ваш процесс создания контента на новый уровень. Узнайте, как наша технология может преобразовать ваши письменные проекты с точностью и эффективностью.

AI асистент по написанию AI Analytics Assistant

Yokoy - Spend Management Suite

35.7K

Откройте для себя возможности нашего набора решений на основе ИИ, созданного специально для эффективного управления расходами. Это инновационное решение использует передовые технологии для оптимизации бюджета, упрощения расходов и улучшения финансовой отчетности. С нашими инструментами на базе ИИ организации могут получать ценные аналитические данные, улучшать процесс принятия решений и добиваться значительных экономий. Преобразите свою финансовую стратегию сегодня с нашей комплексной платформой управления расходами.

На базе ИИ Other

ScreenApp

905.7K

Представляем ScreenApp: бесплатный экранный рекордер с передовыми технологиями транскрипции на базе ИИ, предназначенный для простого захвата и обмена вашими идеями. Идеально подходит для повышения продуктивности и улучшения коммуникации, ScreenApp позволяет легко записывать и транскрибировать ваши действия на экране, гарантируя, что вы не упустите ни одной детали.

записывающее устройство экрана Recording

Find AI tools in YBX