오, 구글. 첫 시도로 성공적인 AI 제품을 출시할 수 있을까요?
Gemini, 기대를 모았던 ChatGPT 경쟁작을 출시한 지 한 달도 되지 않아, 구글은 홍보 데모에서 확인된 조작된 상호작용으로 인해 큰 비판에 직면하게 되었습니다. 최근 연구에 따르면, 소비자가 사용할 수 있는 최신 버전인 Gemini Pro는 대부분의 작업에서 OpenAI의 GPT-3.5 Turbo 대형 언어 모델(LLM)보다 뒤처지고 있습니다.
카네기 멜론 대학과 BerriAI의 연구팀이 발표한 "Gemini의 언어 능력에 대한 심층 분석" 논문에서는 Gemini Pro가 다양한 작업에서 GPT-3.5 Turbo보다 성능이 다소 낮다는 결과를 보여줍니다. arXiv.org에 발표된 이 논문은 2023년 12월 19일 기준으로 Gemini Pro의 정확도가 OpenAI의 구형 모델보다 특히 덜 인상적임을 강조합니다.
구글의 대변인은 Gemini Pro가 GPT-3.5를 초월한다고 주장하며, 더 강력한 버전인 Gemini Ultra가 2024년 초에 출시될 예정이며 내부 테스트에서 GPT-4보다 뛰어난 성능을 보였다고 밝혔습니다. 그들은 "Gemini Pro는 GPT-3.5와 같은 추론 최적화 모델보다 우수하며, 다른 선도 모델과 성능이 유사합니다."라고 말했습니다.
연구원들은 네 가지 LLM을 비교했습니다: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, Mistral의 Mixtral 8x7B. 그들은 AI 집계 사이트인 LiteLLM을 사용하여 4일 동안 다양한 프롬프트를 통해 모델을 평가했습니다. 이 과정에서 STEM, 인문학, 사회과학을 포함한 57개의 객관식 질문도 포함되었습니다.
지식 기반 QA 테스트에서 Gemini Pro는 64.12/60.63을 기록했으며, GPT-3.5 Turbo는 67.75/70.07, GPT-4 Turbo는 80.48/78.95를 기록했습니다. 특히 Gemini는 “D” 선택지를 지속적으로 선호하며 여러 선택 형식에 대한 지침 조정이 부족함을 나타냈습니다. 또한, 안전 응답 제한으로 인해 인간 성 및 형식 논리와 같은 특정 분야에서 어려움을 겪었습니다.
Gemini Pro는 고등학교 미시경제학 및 보안 질문에서 GPT-3.5 Turbo보다 더 나은 성과를 보였으나, 이러한 개선은 미미했습니다. 더 긴 또는 복잡한 질의 테스트에서는 GPT 모델에 비해 정확도가 감소했지만, 단어 정렬 및 기호 조작 작업에서는 뛰어난 성과를 보였습니다.
프로그래밍 능력에서는 Gemini가 다시 부족한 모습을 보였으며, Python 코드 작업 완료에서 GPT-3.5 Turbo보다 더 낮은 성과를 나타냈습니다. 그러나 언어 번역에서 Gemini Pro는 여러 언어에서 GPT-3.5 Turbo와 GPT-4 Turbo를 능가하는 성능을 보였지만, 콘텐츠 조정으로 인해 많은 언어 쌍에서 응답을 차단하는 경향을 보였습니다.
이러한 발견은 구글의 AI 야망에 상당한 영향을 미칩니다. Gemini Ultra의 출시가 다가오면서, 구글은 생성 AI 성능에서 OpenAI를 따라잡기 어려울 수 있습니다. 흥미롭게도, 연구 결과 Mistral의 Mixtral 8x7B가 대부분의 작업에서 GPT-3.5 Turbo보다 못한 성과를 보였으며, 이는 Gemini Pro가 가장 우수하지는 않지만 일부 최신 경쟁자보다 여전히 성능이 나은 것을 시사합니다.
전반적으로 이 연구는 OpenAI가 현재 생성 AI 분야에서 여전히 우위를 점하고 있다는 사실을 강화합니다. 펜실베이니아 대학교의 에단 몰릭 교수와 같은 전문가들은 대부분의 개별 응용 프로그램에서 GPT-4가 여전히 우수한 선택이라고 언급하고 있으며, 이는 내년에 Gemini Ultra가 출시될 때까지 계속될 것입니다.