리더보드: OpenAI의 GPT-4, 최소한의 환상을 기록하다.

Home AI 뉴스 리더보드: OpenAI의 GPT-4, 최소한의 환상을 기록하다.

OpenAI의 GPT-4는 최근 Vectara의 평가에 따르면 문서 요약 시 왜곡 현상을 최소화하는 데 가장 뛰어난 대형 언어 모델(LLM)로 떠올랐습니다. 이 회사는 Hallucination Evaluation Model을 사용하여 주요 LLM을 평가한 종합적인 리더보드를 GitHub에 출시했습니다. 이 모델은 문서 요약 중 AI가 부정확하거나 허구의 정보를 생성하는 빈도인 왜곡 frequency를 정량화합니다.

GPT-4와 변형 모델인 GPT-4 Turbo는 각각 97%의 높은 정확도와 3%의 최소 왜곡 비율을 기록하며 뛰어난 성능을 보였습니다. 그 뒤를 이어 GPT-3.5 Turbo가 96.5%의 인상적인 정확도와 3.5%의 약간 높은 왜곡 비율로 뒤따랐습니다.

OpenAI 외의 모델 중에서는 Meta의 700억 매개변수를 가진 Llama 2가 두드러진 성과를 기록했습니다. 이 모델은 94.9%의 정확도와 단 5.1%의 왜곡 비율을 달성했습니다. 반면 Google의 모델들은 리더보드에서 저조한 성적을 보였습니다. Google Palm 2는 87.9%의 정확도와 12.1%의 왜곡 비율을 기록했고, 채팅 최적화 버전은 72.8%의 정확도와 가장 높은 27.2%의 왜곡 비율로 큰 폭으로 하락했습니다.

특히 Google Palm 2 Chat은 요약당 평균 221단어로 가장 많은 단어 수를 생성한 반면, GPT-4는 평균 81단어를 생성했습니다.

평가 방법론

Vectara의 평가는 LLM 출력에서 왜곡을 식별하기 위해 오픈 소스 데이터셋을 활용했습니다. 이 회사는 각 모델을 1,000개의 짧은 문서에 대해 테스트하며, 해당 문서에 제공된 내용만을 기반으로 요약을 요청했습니다. 그러나 831개의 문서만이 모든 모델에 의해 요약되었고, 나머지는 콘텐츠 제한으로 인해 필터링되었습니다. 모든 모델에 공유된 문서에 대해 Vectara는 전체 정확도와 왜곡 비율을 계산했습니다.

테스트한 콘텐츠는 불법적이거나 '근무 불가' 자료가 없었지만, 특정 단어의 존재로 인해 일부 모델에서 콘텐츠 제한이 발생했습니다.

왜곡 문제 해결

왜곡 문제는 기업 내 생성 AI의 광범위한 도입에 있어 주요 장벽이 되어왔습니다. Vectara의 제품 책임자인 Shane Connelly는 블로그 포스트에서 왜곡을 효과적으로 정량화하는 데 있어 역사적으로 어려움이 있었다고 강조했습니다. 이전의 시도들은 너무 추상적이거나 논란의 여지가 있는 주제를 포함해 기업들이 실제로 적용하기 어려운 경우가 많았습니다.

Vectara가 만든 Hallucination Evaluation Model은 오픈 소스이며, 이를 통해 기업들이 Retrieval Augmented Generation(RAG) 프레임워크에서 언어 모델의 신뢰성을 평가할 수 있습니다. 이 모델은 Hugging Face를 통해 제공되어 사용자가 독특한 요구사항에 맞게 사용자화할 수 있습니다.

Connelly는 “우리의 목표는 기업들이 철저하고 정량화된 분석을 통해 생성 시스템을 자신 있게 구현할 수 있도록 통찰력을 제공하는 것입니다.”라고 말합니다. AI 출력을 명확히 이해함으로써 기업들은 생성 AI 기술의 미묘한 차이를 더 잘 탐색할 수 있습니다.

획기적 사건: 두 인공지능 시스템이 스스로 계약 체결에 성공하다

설문 조사: 대부분의 기업, 글로벌 규제에 따른 책임 있는 AI 관행 채택

Most people like

Welcome Compass

15.3K

혁신적인 AI 기반 디지털 가이드를 통해 고객 경험을 혁신하세요.

AI 기반 AI Reviews Assistant

AIFaceSwap.ai

22.1K

AI 기반의 얼굴 교환 도구를 활용하여 사진과 비디오를 향상시키는 가능성을 열어보세요. 이러한 혁신적인 기술은 미디어에서 얼굴을 손쉽게 교환할 수 있게 해주어 매력적이고 개인화된 콘텐츠를 생성합니다. 이 고급 도구들이 여러분의 디지털 경험을 어떻게 변화시킬 수 있는지 알아보세요!

얼굴 교환 AI Face Swap Generator

Firstup

9.5K

오늘날 급변하는 직장 환경에서 직원 참여를 촉진하는 것은 조직의 성공에 매우 중요합니다. AI 기반의 직원 참여 플랫폼은 고급 기술을 활용하여 팀 내 동기 부여, 협업 및 전반적인 생산성을 향상시킵니다. 데이터 기반 통찰력과 개인화된 전략을 활용함으로써, 이 혁신적인 솔루션은 비즈니스가 보다 연결되고 동기 부여가 된 인력을 조성하도록 지원하며, 궁극적으로 성과와 유지율을 높입니다. AI 중심의 접근 방식이 귀사의 참여 전략을 어떻게 변화시킬 수 있는지, 그리고 번창하는 직장 문화를 만드는 데 어떻게 기여할 수 있는지 알아보십시오.

직원 참여 AI Analytics Assistant

Podcraftr

15.6K

AI 기반 팟캐스트 생성의 힘을 열어보세요. 다양한 텍스트 콘텐츠를 매력적인 오디오 경험으로 변환합니다. 최첨단 기술이 기사, 블로그 및 기타 서면 형식을 어떻게 매력적인 팟캐스트로 매끄럽게 전환할 수 있는지 탐구해 보세요. 정보 접근성을 높이고 즐거움을 더합니다.

팟캐스트 제작 AI Podcast Assistant

Find AI tools in YBX