Abacus.AI, 뉴욕 대학교, 엔비디아, 메리랜드 대학교, 그리고 남가주 대학교의 협력 팀이 기존 산업 표준의 중대한 한계를 극복하기 위해 획기적인 벤치마크인 LiveBench를 발표했습니다. LiveBench는 대규모 언어 모델(LLM)을 평가하기 위한 범용 도구로, 이전 벤치마크가 다양한 모델에서 반복 사용으로 인해 겪는 오염 없는 테스트 데이터셋을 제공합니다.
벤치마크란 무엇인가?
벤치마크는 AI 모델의 성능을 평가하는 표준화된 테스트로, 일련의 작업이나 지표를 통해 수행됩니다. 이를 통해 연구자와 개발자는 결과를 비교하고 발전 상황을 추적하며 다양한 모델의 능력을 이해할 수 있습니다.
LiveBench는 AI 거장인 얀 르쿤과 Abacus.AI의 연구 책임자인 콜린 화이트를 포함한 여러 저명한 연구자들의 기여로 특히 주목받고 있습니다. 주요 기여자인 골드블룸은 성능이 향상된 LLM 벤치마크의 필요성을 강조하며, 테스트 세트 오염을 없애기 위해 새롭게 생성된 다양한 질문의 필요성을 전했습니다.
LiveBench의 주요 특징
LLM의 출현은 전통적인 머신러닝 벤치마크의 부족함을 드러냈습니다. 대부분의 벤치마크는 공개되어 있으며, 현대 LLM은 훈련 시 인터넷 데이터의 방대한 양을 포함하고 있습니다. 이로 인해 LLM이 벤치마크 질문을 훈련 중에 접할 경우 성능이 인위적으로 높게 나타날 수 있어, 이러한 평가의 신뢰성에 대한 우려가 제기됩니다.
LiveBench는 매달 업데이트된 질문을 다양한 최신 데이터셋, 수학 대회, arXiv 논문, 뉴스 기사, IMDb 영화 줄거리에서 수집하여 이러한 문제를 해결하고자 합니다. 현재 960개의 질문이 제공되며, 각 질문은 검증 가능한 객관적인 정답을 가지고 있어 LLM 심사자 없이도 정확한 점수를 매길 수 있습니다.
작업 카테고리
LiveBench에는 18개의 작업이 6개 카테고리로 나뉘어 있으며, 지속적으로 업데이트되는 정보 출처를 활용하여 질문의 다양성과 도전성을 높이고 있습니다. 작업 카테고리는 다음과 같습니다:
- 수학: 고등학교 수학 대회와 고급 AMPS 문제에서 출처를 얻은 질문.
- 코딩: 코드 생성과 새로운 코드 완성 작업 포함.
- 추론: Big-Bench Hard의 Web of Lies와 위치적 추론을 기반으로 한 도전적인 시나리오.
- 언어 이해: 단어 퍼즐, 오타 제거, 영화 줄거리 풀기 관련 작업.
- 지시 따르기: 최근 기사를 기반으로 한 패러프레이징, 요약, 이야기 생성에 중점을 둔 네 가지 작업.
- 데이터 분석: 최근 데이터셋을 활용하여 테이블 형식을 변경하고, 결합 가능한 열을 식별하며, 열 유형을 예측하는 작업.
모델은 성공률에 따라 평가되며, 이상적인 성공률은 30%에서 70% 사이입니다.
LiveBench LLM 리더보드
2024년 6월 12일 기준으로 LiveBench는 여러 저명한 LLM을 평가하였으며, 상위 모델의 정확도는 60% 미만임을 나타냈습니다. 예를 들어, OpenAI의 GPT-4o는 평균 점수 53.79로 1위를 차지했으며, GPT-4 Turbo가 53.34로 뒤를 따릅니다.
비즈니스 리더를 위한 시사점
AI 환경을 탐색하는 것은 비즈니스 리더에게 도전 과제가 될 수 있으며, 특히 올바른 LLM을 선택하는 데 어려움이 있습니다. 벤치마크는 모델 성능에 대한 안심을 제공하지만 전체 그림을 제공하지 못하는 경우가 많습니다. 골드블룸은 LiveBench가 데이터 오염 및 인간 평가의 편향에 대한 우려를 완화하여 모델 비교를 간소화한다고 강조합니다.
기존 벤치마크와의 비교
LiveBench 팀은 LMSYS의 Chatbot Arena와 Arena-Hard와 같은 기존 벤치마크와 함께 분석을 수행했습니다. LiveBench의 트렌드는 전반적으로 다른 벤치마크와 일치하지만, 특정 불일치는 LLM 판별의 내재된 편향을 나타냅니다.
LiveBench는 오픈 소스 도구로 설계되어 누구나 사용하고 기여하며 기능을 확장할 수 있습니다. 화이트는 효과적인 벤치마크가 고성능 LLM 개발에 필수적이며, 이는 모델 혁신을 가속화한다고 설명합니다.
개발자는 GitHub를 통해 LiveBench의 코드를 접근하고 Hugging Face에서 데이터셋을 활용할 수 있습니다.