연구자들, Google Gemini가 GPT-3.5 Turbo에 비해 부족함을 드러냈다.

Home AI 뉴스 연구자들, Google Gemini가 GPT-3.5 Turbo에 비해 부족함을 드러냈다.

오, 구글. 첫 시도로 성공적인 AI 제품을 출시할 수 있을까요?

Gemini, 기대를 모았던 ChatGPT 경쟁작을 출시한 지 한 달도 되지 않아, 구글은 홍보 데모에서 확인된 조작된 상호작용으로 인해 큰 비판에 직면하게 되었습니다. 최근 연구에 따르면, 소비자가 사용할 수 있는 최신 버전인 Gemini Pro는 대부분의 작업에서 OpenAI의 GPT-3.5 Turbo 대형 언어 모델(LLM)보다 뒤처지고 있습니다.

카네기 멜론 대학과 BerriAI의 연구팀이 발표한 "Gemini의 언어 능력에 대한 심층 분석" 논문에서는 Gemini Pro가 다양한 작업에서 GPT-3.5 Turbo보다 성능이 다소 낮다는 결과를 보여줍니다. arXiv.org에 발표된 이 논문은 2023년 12월 19일 기준으로 Gemini Pro의 정확도가 OpenAI의 구형 모델보다 특히 덜 인상적임을 강조합니다.

구글의 대변인은 Gemini Pro가 GPT-3.5를 초월한다고 주장하며, 더 강력한 버전인 Gemini Ultra가 2024년 초에 출시될 예정이며 내부 테스트에서 GPT-4보다 뛰어난 성능을 보였다고 밝혔습니다. 그들은 "Gemini Pro는 GPT-3.5와 같은 추론 최적화 모델보다 우수하며, 다른 선도 모델과 성능이 유사합니다."라고 말했습니다.

연구원들은 네 가지 LLM을 비교했습니다: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, Mistral의 Mixtral 8x7B. 그들은 AI 집계 사이트인 LiteLLM을 사용하여 4일 동안 다양한 프롬프트를 통해 모델을 평가했습니다. 이 과정에서 STEM, 인문학, 사회과학을 포함한 57개의 객관식 질문도 포함되었습니다.

지식 기반 QA 테스트에서 Gemini Pro는 64.12/60.63을 기록했으며, GPT-3.5 Turbo는 67.75/70.07, GPT-4 Turbo는 80.48/78.95를 기록했습니다. 특히 Gemini는 “D” 선택지를 지속적으로 선호하며 여러 선택 형식에 대한 지침 조정이 부족함을 나타냈습니다. 또한, 안전 응답 제한으로 인해 인간 성 및 형식 논리와 같은 특정 분야에서 어려움을 겪었습니다.

Gemini Pro는 고등학교 미시경제학 및 보안 질문에서 GPT-3.5 Turbo보다 더 나은 성과를 보였으나, 이러한 개선은 미미했습니다. 더 긴 또는 복잡한 질의 테스트에서는 GPT 모델에 비해 정확도가 감소했지만, 단어 정렬 및 기호 조작 작업에서는 뛰어난 성과를 보였습니다.

프로그래밍 능력에서는 Gemini가 다시 부족한 모습을 보였으며, Python 코드 작업 완료에서 GPT-3.5 Turbo보다 더 낮은 성과를 나타냈습니다. 그러나 언어 번역에서 Gemini Pro는 여러 언어에서 GPT-3.5 Turbo와 GPT-4 Turbo를 능가하는 성능을 보였지만, 콘텐츠 조정으로 인해 많은 언어 쌍에서 응답을 차단하는 경향을 보였습니다.

이러한 발견은 구글의 AI 야망에 상당한 영향을 미칩니다. Gemini Ultra의 출시가 다가오면서, 구글은 생성 AI 성능에서 OpenAI를 따라잡기 어려울 수 있습니다. 흥미롭게도, 연구 결과 Mistral의 Mixtral 8x7B가 대부분의 작업에서 GPT-3.5 Turbo보다 못한 성과를 보였으며, 이는 Gemini Pro가 가장 우수하지는 않지만 일부 최신 경쟁자보다 여전히 성능이 나은 것을 시사합니다.

전반적으로 이 연구는 OpenAI가 현재 생성 AI 분야에서 여전히 우위를 점하고 있다는 사실을 강화합니다. 펜실베이니아 대학교의 에단 몰릭 교수와 같은 전문가들은 대부분의 개별 응용 프로그램에서 GPT-4가 여전히 우수한 선택이라고 언급하고 있으며, 이는 내년에 Gemini Ultra가 출시될 때까지 계속될 것입니다.

1달러의 쉐비? 자동차 고객 서비스에서 AI 챗봇과 그 위험성 탐구

Patronus AI, 주요 AI 시스템에서 '우려스러운' 안전 취약점을 식별하다

Most people like

Vidu AI

11.6M

아이디어를 매력적인 비디오로 변환하세요. 우리의 AI 지원 도구는 텍스트와 이미지를 고품질의 시각적 콘텐츠로 손쉽게 변환합니다. 매력적인 마케팅 자료 또는 멋진 소셜 미디어 게시물을 제작하든, 우리의 혁신적인 솔루션은 영상 제작 과정을 간소화하여 모든 이가 쉽게 이용할 수 있게 합니다. 여러분의 스토리텔링을 향상시키고 관객을 매료시키는 방법을 알아보세요.

AI 비디오 생성기 Text to Video

Wonder AI

52.9K

창의력의 힘을 발휘하세요! 우리의 가이드를 통해 텍스트를 숨막히는 디지털 아트로 변환하는 방법을 알아보세요. 혁신적인 도구와 기술을 활용하여 단어를 매혹적인 시각으로 바꾸는 방법을 발견할 수 있습니다. 예비 아티스트든 경력 있는 프로든 관계없이, 상상력에서 나오는 멋진 디지털 디자인을 통해 작품을 한 단계 끌어올리는 법을 배우세요.

AI 아트 생성기 AI Art Generator

LongShot AI

71.8K

모든 콘텐츠 제작 요구를 충족시키기 위한 AI 플랫폼을 소개합니다! 마케터, 블로거 또는 사업주 여러분, 이 혁신적인 솔루션은 콘텐츠 생성을 간소화하여 품질과 효율성을 보장합니다. AI 기반 도구가 어떻게 여러분의 창의성과 생산성을 향상시켜, 청중에 맞춘 매력적이고 영향력 있는 콘텐츠를 그 어느 때보다 쉽게 제작할 수 있는지 알아보세요. 오늘 콘텐츠 제작의 미래를 경험해 보세요!

AI 플랫폼 Writing Assistants

Claap

154.6K

Claap은 협업을 향상시키고 지식 공유를 원활하게 하는 혁신적인 비디오 작업공간입니다. 화면 녹화와 AI 생성 노트와 같은 강력한 기능을 통해 Claap은 팀워크를 더욱 효율적이고 생산적으로 만듭니다.

비디오 워크스페이스 AI Product Description Generator

Find AI tools in YBX