研究者が発見:Google GeminiはGPT-3.5 Turboに劣ることが判明

ああ、Googleよ。あなたは一度の試みで成功裏にAI製品をリリースできるのでしょうか?

Geminiの立ち上げからわずか1か月後、Googleはそのプロモーションデモにおける演出されたやりとりが確認され、批判を浴びました。最近の研究によると、消費者向けに流通している最も進んだバージョンであるGemini Proは、OpenAIのGPT-3.5 Turbo大型言語モデル(LLM)に対して、ほとんどのタスクで劣っていることが分かりました。

カーネギーメロン大学とBerriAIの研究チームが発表した論文「Geminiの言語能力に関する詳細な分析」は、Gemini ProがさまざまなタスクでGPT-3.5 Turboに対してわずかに劣ることを明らかにしています。arXiv.orgに掲載されたこの論文は、2023年12月19日の時点で、Gemini Proの正確性がOpenAIの旧モデルに比べて顕著に劣っていると指摘しています。

Googleの広報担当者は、社内の研究結果に基づき、Gemini ProがGPT-3.5を上回ること、さらに2024年初頭に登場するより強力なバージョンであるGemini Ultraが内部テストでGPT-4を上回っているとの見解を示しました。彼らは「Gemini Proは推論最適化モデルであるGPT-3.5を上回り、他の主要モデルとも同等の性能を示しています。」と述べています。

研究者らは、Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo、MistralのMixtral 8x7Bの4つのLLMをテストしました。彼らはAI集約サイトLiteLLMを利用して、STEM、人文学、社会科学の57問の選択肢付き質問を含むさまざまなプロンプトを使って4日間にわたり評価しました。

知識に基づくQ&Aテストでは、Gemini Proは64.12/60.63点を記録し、GPT-3.5 Turboは67.75/70.07、GPT-4 Turboは80.48/78.95を達成しました。特に、Geminiは選択肢「D」を優先する傾向が見られ、これは複数選択形式への指導調整が不十分であることによるバイアスの可能性を示しています。さらに、Geminiは人間の性と形式論理といった特定のカテゴリに対しても、安全な応答制限により苦戦しました。

Gemini Proは高校のミクロ経済学と安全性に関する質問ではGPT-3.5 Turboを上回りましたが、その向上はわずかでした。長文や複雑な質問のテストでは、Gemini Proは両方のGPTモデルと比べて正確性が低下しましたが、語の並べ替えや記号操作のタスクでは優れた性能を示しました。

プログラミング能力においても、Gemini ProはPythonのコードタスクを完了する際にGPT-3.5 Turboより劣っていました。言語翻訳に関しては、Gemini Proは複数の言語でGPT-3.5 TurboやGPT-4 Turboを上回る結果を示しましたが、コンテンツのモデレーションにより多くの言語ペアに対する応答がブロックされる傾向も見られました。

これらの結果は、GoogleのAI関連の野望にとって重大な意味を持ちます。Gemini Ultraのリリースが近づく中、Googleは生成AIのパフォーマンスにおいてOpenAIに遅れをとり続ける可能性があります。興味深いことに、MistralのMixtral 8x7BはほとんどのタスクにおいてGPT-3.5 Turboよりも劣っており、Gemini Proは最良ではないものの、新興競合よりは上回っていることを示唆しています。

全体として、この研究はOpenAIが現在生成AIの分野でのリーダーシップを維持していることを強調しています。ペンシルバニア大学のイーサン・モリック教授のような専門家は、多くの個別アプリケーションにおいてGPT-4が優れた選択肢であり、来年のGemini Ultraのリリースまでこの傾向が続くと指摘しています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles