인공지능 벤치마크, 오픈소스 모델의 성능 급증을 밝히다
인공지능 스타트업 갈릴레오가 월요일에 발표한 중요한 벤치마크 보고서에 따르면 오픈소스 언어 모델이 독점 모델과의 성능 격차를 빠르게 좁히고 있습니다. 이러한 변화는 고급 AI 기능의 민주화를 촉진하여 다양한 산업에서 혁신을 이끌 가능성이 큽니다.
갈릴레오의 두 번째 연례 환각 지수에서는 22개의 선도적인 대형 언어 모델이 부정확한 정보를 생성할 가능성을 평가했습니다. 비록 폐쇄형 모델이 여전히 상위를 차지하고 있지만, 단 8개월 만에 성능 격차가 크게 감소했습니다.
“오픈소스 모델의 급속한 발전은 놀라웠습니다.”라고 갈릴레오의 공동 창립자이자 CEO인 빅람 차터지가 밝혔습니다. “2023년 10월, 상위 5개 모델은 주로 OpenAI의 폐쇄형 API였습니다. 하지만 이제 오픈소스 모델이 급속히 추격하고 있습니다.”
이러한 추세는 스타트업과 연구자들에게 진입 장벽을 낮추고, 기존 기업들이 더 빠르게 혁신하도록 압박할 수 있습니다.
안트로픽의 클로드 3.5 소네트, 선두로 부상
안트로픽의 클로드 3.5 소네트가 전체 모델 중 최고의 성능을 보여, 지난해 랭킹에서 우위를 점했던 OpenAI의 모델을 초월했습니다. 이는 AI 시장에서 신생 기업들이 기존 리더에 도전하는 변화를 나타냅니다.
“안트로픽의 최신 모델에 깊은 인상을 받았습니다.”라고 차터지는 말했습니다. “소네트는 짧은, 중간, 긴 맥락 모두에서 뛰어난 성능을 보여주었으며, 평균 점수는 각각 0.97, 1, 1을 기록했습니다. 최대 20만 컨텍스트 창을 지원하므로 더 큰 데이터 세트도 처리할 수 있습니다.”
지수는 비용 효율성과 성능을 평가할 필요성을 강조했습니다. 구글의 제미니 1.5 플래시가 가장 효율적인 모델로, 상위 모델들에 비해 현저히 낮은 가격에 강력한 결과를 제공합니다.
“플래시의 비용은 백만 개의 프롬프트 토큰당 $0.35로, 소네트의 $3와 비교됩니다.” 차터지는 설명했습니다. “출력 측면에서 플래시는 백만 개의 응답 토큰당 약 $1의 비용이 들고, 소네트는 $15입니다. 이 가격 차이는 소네트를 선택할 경우 상당한 예산이 필요하다는 것을 의미하며, 반면 플래시는 비슷한 성능을 훨씬 더 낮은 가격에 제공합니다.”
이러한 비용 차이는 AI 배포를 확장하려는 기업에 영향을 미칠 수 있으며, 이들을 더 효율적인 모델로 이끌 수 있습니다.
글로벌 AI 경쟁: 알리바바의 발전
알리바바의 Qwen2-72B-Instruct는 오픈소스 모델 중 뛰어난 성과를 냈으며, 짧고 중간 길이 입력에서 높은 점수를 기록했습니다. 이는 비미국 기업들이 AI 분야에서 상당한 발전을 이룩하고 있다는 중요한 경향을 반영합니다.
차터지는 이를 AI 민주화의 일환으로 보고 있습니다. “Llama 3와 Qwen을 이용해 전 세계 팀들이 경제적 배경에 상관없이 혁신적인 제품을 구축할 수 있게 되었습니다.”라고 그는 언급했습니다. 그는 이러한 모델들이 엣지와 모바일 기기 최적화를 통해 모바일 및 웹 환경에서 인상적인 애플리케이션으로 발전할 것이라고 예측합니다.
지수는 또한 모델이 짧은 스니펫부터 긴 문서까지 다양한 컨텍스트 길이를 어떻게 처리하는지를 중점적으로 다루었습니다. 이는 광범위한 보고서 요약이나 대규모 데이터세트 분석과 같은 작업에서 AI 사용이 증가하고 있음을 반영하며, 기업들이 AI 배포를 평가하는 데 필요한 모델 능력의 미묘한 분석을 제공합니다.
“우리는 성과를 컨텍스트 길이—소형, 중형, 대형으로 나누어 분석하고자 했습니다.”라고 차터지가 공유했습니다. “비용 대비 성능에 대한 주안점은 의사 결정자에게 매우 중요합니다.”
연구 결과, 더 큰 모델이 항상 우수한 것은 아니며, 일부 경우에는 소형 모델이 더 큰 모델을 초월한 것으로 나타났습니다. 이는 디자인의 효율성이 크기 이상으로 중요할 수 있음을 시사합니다.
“제미니 1.5 플래시 모델은 혁신적이었으며, 더 큰 동료들을 초월했습니다.”라고 차터지는 밝혔습니다. “이는 AI 개발에서 디자인 효율성이 규모보다 우선시될 수 있음을 강조합니다.”
언어 모델의 미래를 바라보며
갈릴레오의 통찰력은 기업의 AI 도입 방식에 큰 영향을 미칠 수 있습니다. 오픈소스 모델이 진화하고 저렴해짐에 따라, 기업들은 비싼 독점 서비스 없이도 강력한 AI 도구에 접근할 수 있게 되어, 산업 전반에 걸쳐 AI 통합과 생산성을 증대시킬 수 있습니다.
AI 시스템을 모니터링하고 개선하는 도구에 중점을 두고 있는 이 스타트업은 언어 모델의 빠르게 변화하는 환경을 탐색하는 기업을 지원하려고 합니다. 정기적인 벤치마크를 제공함으로써, 갈릴레오 팀은 기술적 의사 결정자들에게 필수적인 자원이 되고자 합니다.
“우리는 기업 고객과 AI 팀 사용자들이 AI 애플리케이션을 개발하는 가장 효과적인 방법을 이해하는 데 이 도구를 활용하길 원합니다.”라고 차터지는 밝혔습니다.
신모델이 거의 매주 등장함에 따라 경쟁이 치열해지고, 갈릴레오의 벤치마크는 산업의 빠른 변화를 보여주는 단면을 제공합니다. 이 회사는 오픈소스와 독점 AI 기술 간의 변화를 반영하기 위해 분기마다 지수를 업데이트할 예정입니다.
차터지는 더 많은 혁신을 예고합니다: “우리는 고급 추론을 위한 운영 체제로 기능하는 대형 모델의 출현을 보고 있습니다. 이러한 모델은 향후 1∼2년 내에 더욱 일반화될 것이며, 특히 컨텍스트 길이가 증가하고 비용이 감소함에 따라 그렇습니다.”
그는 또한 다중 모드 모델과 에이전트 기반 시스템의 증가를 예측하며, 이는 새로운 평가 방법의 필요성을 제기하고 또 다른 AI 혁신의 물결을 일으킬 가능성이 높습니다.
AI의 빠른 발전에 직면한 기업들에게 갈릴레오의 환각 지수와 같은 도구는 전략적 의사 결정을 안내하는 중요한 역할을 할 것입니다. AI 기능의 민주화와 비용 효율성에 대한 관심이 더욱 증가함에 따라, 고급 AI는 더욱 강력해질 뿐 아니라 보다 폭넓은 조직에서 접근할 수 있는 미래를 약속합니다.
이러한 변화는 기회와 도전을 동시에 제공합니다. 고성능의 비용 효율적인 AI 모델의 등장은 혁신과 효율성을 촉진할 수 있지만, 기업들은 어떤 기술을 도입할지, 그리고 이를 효과적으로 통합할 방법을 세심하게 고려해야 합니다.
오픈소스와 독점 AI 간의 경계가 흐려짐에 따라, 기업들은 정보에 기반한 유연성을 유지하고 기술 발전에 맞춰 전략을 조정할 준비를 해야 합니다. 갈릴레오의 벤치마크는 AI 트렌드의 현재 상황을 반영할 뿐 아니라, 변화가 잇따르는 인공지능의 복잡하고 빠르게 변화하는 세계를 탐색하는 로드맵 역할을 합니다.