구글 딥마인드, '슈퍼휴먼' AI 시스템 출시: 사실 확인 혁신, 비용 절감 및 정확성 향상

Home AI 뉴스 구글 딥마인드, '슈퍼휴먼' AI 시스템 출시: 사실 확인 혁신, 비용 절감 및 정확성 향상

최근 구글의 DeepMind가 발표한 연구에 따르면, 인공지능 시스템이 대형 언어 모델이 생성한 정보의 정확성을 평가하는 데 있어 인간 사실 확인자보다 더 우수한 성능을 발휘할 수 있다고 합니다. '대형 언어 모델의 장기적 사실성'이라는 제목의 논문에서 소개된 Search-Augmented Factuality Evaluator (SAFE)는 대형 언어 모델을 활용하여 생성된 텍스트를 개별 사실로 분해하고, Google 검색 결과를 통해 각 주장에 대한 정확성을 평가하는 혁신적인 방법입니다.

SAFE는 장문 응답을 구체적인 사실로 나누고, 다단계 추론을 통해 각 사실을 평가하는 과정을 포함합니다. 이 과정에는 정보가 관련 출처로 입증되는지 확인하기 위한 Google 검색 질의도 포함됩니다.

'초인적' 성능에 대한 논란

연구자들은 약 16,000개의 사실 데이터셋을 사용하여 SAFE와 인간 주석자를 비교했습니다. 그 결과, SAFE의 평가가 인간 평가와 72% 일치하는 것으로 나타났습니다. 100개의 불일치 샘플에서 SAFE의 판별은 76%의 정확도를 보였습니다. 논문에서는 "LLM 에이전트가 초인적 평가 성능을 달성할 수 있다"고 주장하지만, 일부 전문가들은 이 '초인적'의 정의에 이의를 제기하고 있습니다. 저명한 AI 연구자인 게리 마커스는 트위터에서 "초인적"이라는 용어가 "정당한 인간 사실 확인자보다 잘 평가하는 것"을 의미할 수 있다고 언급했습니다. 그는 1985년 체스 소프트웨어가 초인적 능력을 대표한다고 제안하는 것과 유사하다고 비유했습니다.

마커스는 SAFE가 진정한 인간 사실 확인자와 비교하여 '초인적' 성능 주장을 검증해야 한다고 주장합니다. 인간 평가자의 자격과 방법론 같은 세부 사항은 이러한 결과를 정확히 해석하기 위해 필수적입니다.

비용 절감 및 모델 벤치마킹

SAFE의 주요 장점 중 하나는 비용 효율성입니다. 연구자들은 인공지능 시스템을 사용하는 것이 인간 사실 확인자를 고용하는 것보다 약 20배 저렴하다는 것을 발견했습니다. 대형 언어 모델이 생성하는 정보의 양이 증가하는 상황에서, 주장을 검증할 수 있는 저렴하고 확장 가능한 솔루션의 필요성이 커지고 있습니다.

DeepMind 팀은 SAFE를 사용하여 Gemini, GPT, Claude 및 PaLM-2라는 네 가지 패밀리의 13개 주요 언어 모델의 사실 정확성을 평가했습니다. LongFact라는 새로운 벤치마킹 도구를 통해 조사한 결과, 더 큰 모델이 일반적으로 사실 오류를 덜 발생시킨다는 것을 발견했습니다. 하지만, 가장 우수한 모델조차도 상당수의 부정확성을 생성하고 있어, 잘못된 정보를 전달할 수 있는 언어 모델에 대한 주의가 필요하다는 점을 강조했습니다. SAFE와 같은 도구는 이러한 위험을 완화하는 데 중요한 역할을 할 수 있습니다.

투명성 및 인간 기준의 필요성

SAFE의 코드와 LongFact 데이터셋은 GitHub에서 사용 가능하여 추가적인 검토와 개발을 허용하고 있지만, 연구에 사용된 인간 기준에 대한 투명성이 더 요구됩니다. 크라우드워커의 자격 및 과정에 대한 이해는 SAFE의 성과를 맥락화하는 데 중요합니다.

기술 회사들이 다양한 응용 프로그램을 위한 보다 정교한 언어 모델을 개발하기 위해 노력하는 가운데, 이러한 모델의 출력을 자동으로 사실 확인할 수 있는 능력은 중요해질 수 있습니다. SAFE와 같은 혁신은 AI 생성 정보에서 신뢰와 책임을 구축하는 주요 진전을 나타냅니다.

그러나 이러한 영향력 있는 기술의 발전은 단일 조직의 의견을 넘어 다양한 이해 관계자의 의견을 포함하여 투명하게 이루어져야 합니다. 진정한 전문가와의 철저하고 투명한 벤치마킹이 진정한 발전을 측정하는 핵심이 될 것입니다. 그래야지만 자동 사실 확인이 허위 정보와 싸우는 데 얼마나 효과적인지를 진정으로 이해할 수 있습니다.

일론 머스크, Grok-1.5 발표: GPT-4 성능 기준에 다가서다

SambaNova, AI Samba-CoE v0.2 출시: 혁신성과 성능에서 Databricks DBRX를 능가하다

Most people like

Synthesia

1.9M

AI 아바타와 다국어 음성 해설을 활용하여 전문적인 비디오를 쉽게 제작하세요. 배우나 비싼 장비는 필요 없습니다. 오늘 바로 원활한 비디오 제작 경험을 시작하세요!

비디오 제작 AI Content Generator

PromptPanda

7.9K

오늘날의 빠르게 변화하는 디지털 환경에서 효과적인 AI 프롬프트 관리는 워크플로우 최적화에 필수적입니다. 인공지능의 힘을 활용하면 프로세스를 간소화하고 생산성을 향상시키며 전반적인 효율성을 극대화할 수 있습니다. 이 가이드에서는 AI 프롬프트 관리를 마스터하기 위한 주요 전략과 도구를 탐구하여 귀하의 운영이 원활하고 효과적으로 진행될 수 있도록 도와드립니다.

AI 프롬프트 관리 Prompt

Finvi

15K

ARM 및 헬스케어 분야를 위한 AI 기반 워크플로우 플랫폼 소개 우리의 첨단 AI 기반 워크플로우 플랫폼이 채권 관리(ARM) 및 헬스케어 산업을 어떻게 혁신하는지 알아보세요. 프로세스를 간소화하고 운영 효율성을 향상시킴으로써, 우리 플랫폼은 조직이 워크플로우를 최적화하고 환자 결과를 개선하며 수익 주기를 가속화할 수 있도록 지원합니다. 귀하의 필요에 맞춘 첨단 기술로 산업 혁신의 미래를 탐험해 보세요.

AI 기반 워크플로우 플랫폼 Healthcare

v0.dev

AI 기반 생성 UI 시스템을 소개합니다. 사용자 경험을 혁신하도록 설계된 이 혁신적인 기술은 인공지능의 힘을 활용하여 개인의 요구와 선호에 맞게 동적이고 반응적인 사용자 인터페이스를 생성합니다. 우리의 생성 접근 방식이 디자인 효율성을 향상시키고 상호작용 품질을 높이는 방법을 알아보세요.

생성적 사용자 인터페이스 AI Code Generator

Find AI tools in YBX