리더보드: OpenAI의 GPT-4, 최소한의 환상을 기록하다.

Home AI 뉴스 리더보드: OpenAI의 GPT-4, 최소한의 환상을 기록하다.

OpenAI의 GPT-4는 최근 Vectara의 평가에 따르면 문서 요약 시 왜곡 현상을 최소화하는 데 가장 뛰어난 대형 언어 모델(LLM)로 떠올랐습니다. 이 회사는 Hallucination Evaluation Model을 사용하여 주요 LLM을 평가한 종합적인 리더보드를 GitHub에 출시했습니다. 이 모델은 문서 요약 중 AI가 부정확하거나 허구의 정보를 생성하는 빈도인 왜곡 frequency를 정량화합니다.

GPT-4와 변형 모델인 GPT-4 Turbo는 각각 97%의 높은 정확도와 3%의 최소 왜곡 비율을 기록하며 뛰어난 성능을 보였습니다. 그 뒤를 이어 GPT-3.5 Turbo가 96.5%의 인상적인 정확도와 3.5%의 약간 높은 왜곡 비율로 뒤따랐습니다.

OpenAI 외의 모델 중에서는 Meta의 700억 매개변수를 가진 Llama 2가 두드러진 성과를 기록했습니다. 이 모델은 94.9%의 정확도와 단 5.1%의 왜곡 비율을 달성했습니다. 반면 Google의 모델들은 리더보드에서 저조한 성적을 보였습니다. Google Palm 2는 87.9%의 정확도와 12.1%의 왜곡 비율을 기록했고, 채팅 최적화 버전은 72.8%의 정확도와 가장 높은 27.2%의 왜곡 비율로 큰 폭으로 하락했습니다.

특히 Google Palm 2 Chat은 요약당 평균 221단어로 가장 많은 단어 수를 생성한 반면, GPT-4는 평균 81단어를 생성했습니다.

평가 방법론

Vectara의 평가는 LLM 출력에서 왜곡을 식별하기 위해 오픈 소스 데이터셋을 활용했습니다. 이 회사는 각 모델을 1,000개의 짧은 문서에 대해 테스트하며, 해당 문서에 제공된 내용만을 기반으로 요약을 요청했습니다. 그러나 831개의 문서만이 모든 모델에 의해 요약되었고, 나머지는 콘텐츠 제한으로 인해 필터링되었습니다. 모든 모델에 공유된 문서에 대해 Vectara는 전체 정확도와 왜곡 비율을 계산했습니다.

테스트한 콘텐츠는 불법적이거나 '근무 불가' 자료가 없었지만, 특정 단어의 존재로 인해 일부 모델에서 콘텐츠 제한이 발생했습니다.

왜곡 문제 해결

왜곡 문제는 기업 내 생성 AI의 광범위한 도입에 있어 주요 장벽이 되어왔습니다. Vectara의 제품 책임자인 Shane Connelly는 블로그 포스트에서 왜곡을 효과적으로 정량화하는 데 있어 역사적으로 어려움이 있었다고 강조했습니다. 이전의 시도들은 너무 추상적이거나 논란의 여지가 있는 주제를 포함해 기업들이 실제로 적용하기 어려운 경우가 많았습니다.

Vectara가 만든 Hallucination Evaluation Model은 오픈 소스이며, 이를 통해 기업들이 Retrieval Augmented Generation(RAG) 프레임워크에서 언어 모델의 신뢰성을 평가할 수 있습니다. 이 모델은 Hugging Face를 통해 제공되어 사용자가 독특한 요구사항에 맞게 사용자화할 수 있습니다.

Connelly는 “우리의 목표는 기업들이 철저하고 정량화된 분석을 통해 생성 시스템을 자신 있게 구현할 수 있도록 통찰력을 제공하는 것입니다.”라고 말합니다. AI 출력을 명확히 이해함으로써 기업들은 생성 AI 기술의 미묘한 차이를 더 잘 탐색할 수 있습니다.

획기적 사건: 두 인공지능 시스템이 스스로 계약 체결에 성공하다

설문 조사: 대부분의 기업, 글로벌 규제에 따른 책임 있는 AI 관행 채택

Most people like

Nightwatch

122.9K

정밀하고 최적화된 키워드 순위를 제공하는 AI 기반 SEO 모니터링 도구를 소개합니다. 끊임없이 변화하는 디지털 환경에서 앞서 나갈 수 있도록 이 혁신적인 솔루션으로 웹사이트 가시성을 최대한 활용하세요.

SEO 모니터링 AI SEO Assistant

PetsApp

76.7K

수의사 참여 및 소통을 위한 종합 플랫폼을 소개합니다. 이 플랫폼은 수의사 커뮤니티 내 상호작용을 향상시키도록 설계되었습니다. 혁신적인 이 솔루션은 수의사, 애완동물 주인 및 동물 돌봄 전문가 간의 소통을 원활하게 하고 협업을 촉진합니다.

수의학 참여 Healthcare

OptimizerAI

118.2K

무한한 AI 생성 사운드의 세계를 발견하세요. 창의성이 무한한 곳입니다. 음악가, 콘텐츠 제작자, 사운드 디자이너를 영감을 주기 위해 맞춤화된 다양한 오디오 경험을 활용해 보세요. 프로젝트를 위한 독특한 사운드스케이프나 비디오를 위한 혁신적인 사운드 효과를 찾고 계시다면, 우리의 최첨단 AI 기술이 무한한 가능성을 제공합니다. 지금 바로 사운드 창작의 미래를 탐험해 보세요!

사운드 이펙트 Voice & Audio Editing

iLoveSong.ai

952.9K

우리의 AI 음악 생성기의 힘을 발견하세요. 이 도구는 여러분의 필요에 맞게 독특하고 맞춤화된 음악을 만들고 다운로드하는 데 도움을 줍니다. 프로젝트를 위한 원작 작곡, 동영상 배경 음악, 또는 개인화된 사운드스케이프를 찾고 계시다면, 우리 플랫폼은 모든 사람이 음악 창작의 예술을 쉽게 즐길 수 있도록 합니다. 오늘부터 여러분만의 멜로디를 만들어보세요!

AI 음악 생성기 AI Music Generator

Find AI tools in YBX