LiveBench: 오염 없는 테스트 데이터와 객관적 평가를 갖춘 오픈 LLM 벤치마크

Home AI 뉴스 LiveBench: 오염 없는 테스트 데이터와 객관적 평가를 갖춘 오픈 LLM 벤치마크

Abacus.AI, 뉴욕 대학교, 엔비디아, 메리랜드 대학교, 그리고 남가주 대학교의 협력 팀이 기존 산업 표준의 중대한 한계를 극복하기 위해 획기적인 벤치마크인 LiveBench를 발표했습니다. LiveBench는 대규모 언어 모델(LLM)을 평가하기 위한 범용 도구로, 이전 벤치마크가 다양한 모델에서 반복 사용으로 인해 겪는 오염 없는 테스트 데이터셋을 제공합니다.

벤치마크란 무엇인가?

벤치마크는 AI 모델의 성능을 평가하는 표준화된 테스트로, 일련의 작업이나 지표를 통해 수행됩니다. 이를 통해 연구자와 개발자는 결과를 비교하고 발전 상황을 추적하며 다양한 모델의 능력을 이해할 수 있습니다.

LiveBench는 AI 거장인 얀 르쿤과 Abacus.AI의 연구 책임자인 콜린 화이트를 포함한 여러 저명한 연구자들의 기여로 특히 주목받고 있습니다. 주요 기여자인 골드블룸은 성능이 향상된 LLM 벤치마크의 필요성을 강조하며, 테스트 세트 오염을 없애기 위해 새롭게 생성된 다양한 질문의 필요성을 전했습니다.

LiveBench의 주요 특징

LLM의 출현은 전통적인 머신러닝 벤치마크의 부족함을 드러냈습니다. 대부분의 벤치마크는 공개되어 있으며, 현대 LLM은 훈련 시 인터넷 데이터의 방대한 양을 포함하고 있습니다. 이로 인해 LLM이 벤치마크 질문을 훈련 중에 접할 경우 성능이 인위적으로 높게 나타날 수 있어, 이러한 평가의 신뢰성에 대한 우려가 제기됩니다.

LiveBench는 매달 업데이트된 질문을 다양한 최신 데이터셋, 수학 대회, arXiv 논문, 뉴스 기사, IMDb 영화 줄거리에서 수집하여 이러한 문제를 해결하고자 합니다. 현재 960개의 질문이 제공되며, 각 질문은 검증 가능한 객관적인 정답을 가지고 있어 LLM 심사자 없이도 정확한 점수를 매길 수 있습니다.

작업 카테고리

LiveBench에는 18개의 작업이 6개 카테고리로 나뉘어 있으며, 지속적으로 업데이트되는 정보 출처를 활용하여 질문의 다양성과 도전성을 높이고 있습니다. 작업 카테고리는 다음과 같습니다:

- 수학: 고등학교 수학 대회와 고급 AMPS 문제에서 출처를 얻은 질문.

- 코딩: 코드 생성과 새로운 코드 완성 작업 포함.

- 추론: Big-Bench Hard의 Web of Lies와 위치적 추론을 기반으로 한 도전적인 시나리오.

- 언어 이해: 단어 퍼즐, 오타 제거, 영화 줄거리 풀기 관련 작업.

- 지시 따르기: 최근 기사를 기반으로 한 패러프레이징, 요약, 이야기 생성에 중점을 둔 네 가지 작업.

- 데이터 분석: 최근 데이터셋을 활용하여 테이블 형식을 변경하고, 결합 가능한 열을 식별하며, 열 유형을 예측하는 작업.

모델은 성공률에 따라 평가되며, 이상적인 성공률은 30%에서 70% 사이입니다.

LiveBench LLM 리더보드

2024년 6월 12일 기준으로 LiveBench는 여러 저명한 LLM을 평가하였으며, 상위 모델의 정확도는 60% 미만임을 나타냈습니다. 예를 들어, OpenAI의 GPT-4o는 평균 점수 53.79로 1위를 차지했으며, GPT-4 Turbo가 53.34로 뒤를 따릅니다.

비즈니스 리더를 위한 시사점

AI 환경을 탐색하는 것은 비즈니스 리더에게 도전 과제가 될 수 있으며, 특히 올바른 LLM을 선택하는 데 어려움이 있습니다. 벤치마크는 모델 성능에 대한 안심을 제공하지만 전체 그림을 제공하지 못하는 경우가 많습니다. 골드블룸은 LiveBench가 데이터 오염 및 인간 평가의 편향에 대한 우려를 완화하여 모델 비교를 간소화한다고 강조합니다.

기존 벤치마크와의 비교

LiveBench 팀은 LMSYS의 Chatbot Arena와 Arena-Hard와 같은 기존 벤치마크와 함께 분석을 수행했습니다. LiveBench의 트렌드는 전반적으로 다른 벤치마크와 일치하지만, 특정 불일치는 LLM 판별의 내재된 편향을 나타냅니다.

LiveBench는 오픈 소스 도구로 설계되어 누구나 사용하고 기여하며 기능을 확장할 수 있습니다. 화이트는 효과적인 벤치마크가 고성능 LLM 개발에 필수적이며, 이는 모델 혁신을 가속화한다고 설명합니다.

개발자는 GitHub를 통해 LiveBench의 코드를 접근하고 Hugging Face에서 데이터셋을 활용할 수 있습니다.

혁신적인 변환기 아키텍처: GPU 없이 강력한 LLM의 잠재력 발휘하기

‘루마의 드림 머신 출시: 더 이상 소라가 필요 없다 – 새로운 AI 비디오 생성기가 트래픽 급증’

Most people like

Tars

163.2K

Tars는 고급 AI 기반 챗봇을 활용하여 고객 참여와 지원을 강화하는 혁신적인 플랫폼입니다. 상호 작용을 간소화함으로써, Tars는 기업이 개인 맞춤형 지원을 제공하고 사용자 경험을 향상시키는데 도움을 줍니다.

챗봇 플랫폼 AI Chatbot

Icons8

디자인 프로젝트를 위한 아이콘, 클립아트, 일러스트레이션, 사진, 음악을 제공하는 무료 웹사이트입니다.

아이콘 만들기 AI Photo & Image Generator

BookAI.top

29.1K

BookAI.top에 오신 것을 환영합니다. 저희는 다양한 AI 기술에 대한 유익한 튜토리얼을 제공하는 AI 학습 플랫폼입니다. 저희의 사명은 빠르게 발전하는 인공지능 분야에서 최첨단 지식을 통해 여러분의 업무와 학습 경험을 향상시키는 것입니다.

AI 학습 Large Language Models (LLMs)

FlyPix AI

8.9K

AI 기반 지리공간 솔루션으로 정밀한 공간 인텔리전스 열기 최첨단 AI 구동 지리공간 솔루션이 공간 인텔리전스를 어떻게 혁신하고 있는지 알아보세요. 고급 알고리즘과 데이터 분석을 활용하여 이 솔루션은 비할 데 없는 정확성과 통찰력을 제공하며, 산업들이 정밀한 지리 데이터를 바탕으로 정보에 기반한 결정을 내릴 수 있도록 지원합니다. 공간 분석의 미래에 참여하고 우리 세계의 복잡성을 이해하는 데 도움을 받으세요.

AI 기반 지리공간 솔루션 AI Image Recognition

Find AI tools in YBX