研究者が発見：Google GeminiはGPT-3.5 Turboに劣ることが判明

Home AIニュース研究者が発見：Google GeminiはGPT-3.5 Turboに劣ることが判明

ああ、Googleよ。あなたは一度の試みで成功裏にAI製品をリリースできるのでしょうか？

Geminiの立ち上げからわずか1か月後、Googleはそのプロモーションデモにおける演出されたやりとりが確認され、批判を浴びました。最近の研究によると、消費者向けに流通している最も進んだバージョンであるGemini Proは、OpenAIのGPT-3.5 Turbo大型言語モデル（LLM）に対して、ほとんどのタスクで劣っていることが分かりました。

カーネギーメロン大学とBerriAIの研究チームが発表した論文「Geminiの言語能力に関する詳細な分析」は、Gemini ProがさまざまなタスクでGPT-3.5 Turboに対してわずかに劣ることを明らかにしています。arXiv.orgに掲載されたこの論文は、2023年12月19日の時点で、Gemini Proの正確性がOpenAIの旧モデルに比べて顕著に劣っていると指摘しています。

Googleの広報担当者は、社内の研究結果に基づき、Gemini ProがGPT-3.5を上回ること、さらに2024年初頭に登場するより強力なバージョンであるGemini Ultraが内部テストでGPT-4を上回っているとの見解を示しました。彼らは「Gemini Proは推論最適化モデルであるGPT-3.5を上回り、他の主要モデルとも同等の性能を示しています。」と述べています。

研究者らは、Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo、MistralのMixtral 8x7Bの4つのLLMをテストしました。彼らはAI集約サイトLiteLLMを利用して、STEM、人文学、社会科学の57問の選択肢付き質問を含むさまざまなプロンプトを使って4日間にわたり評価しました。

知識に基づくQ&Aテストでは、Gemini Proは64.12/60.63点を記録し、GPT-3.5 Turboは67.75/70.07、GPT-4 Turboは80.48/78.95を達成しました。特に、Geminiは選択肢「D」を優先する傾向が見られ、これは複数選択形式への指導調整が不十分であることによるバイアスの可能性を示しています。さらに、Geminiは人間の性と形式論理といった特定のカテゴリに対しても、安全な応答制限により苦戦しました。

Gemini Proは高校のミクロ経済学と安全性に関する質問ではGPT-3.5 Turboを上回りましたが、その向上はわずかでした。長文や複雑な質問のテストでは、Gemini Proは両方のGPTモデルと比べて正確性が低下しましたが、語の並べ替えや記号操作のタスクでは優れた性能を示しました。

プログラミング能力においても、Gemini ProはPythonのコードタスクを完了する際にGPT-3.5 Turboより劣っていました。言語翻訳に関しては、Gemini Proは複数の言語でGPT-3.5 TurboやGPT-4 Turboを上回る結果を示しましたが、コンテンツのモデレーションにより多くの言語ペアに対する応答がブロックされる傾向も見られました。

これらの結果は、GoogleのAI関連の野望にとって重大な意味を持ちます。Gemini Ultraのリリースが近づく中、Googleは生成AIのパフォーマンスにおいてOpenAIに遅れをとり続ける可能性があります。興味深いことに、MistralのMixtral 8x7BはほとんどのタスクにおいてGPT-3.5 Turboよりも劣っており、Gemini Proは最良ではないものの、新興競合よりは上回っていることを示唆しています。

全体として、この研究はOpenAIが現在生成AIの分野でのリーダーシップを維持していることを強調しています。ペンシルバニア大学のイーサン・モリック教授のような専門家は、多くの個別アプリケーションにおいてGPT-4が優れた選択肢であり、来年のGemini Ultraのリリースまでこの傾向が続くと指摘しています。

1ドルのシボレーは実現可能？自動車カスタマーサービスにおけるAIチャットボットのリスクを探る

パトロヌスAIが主要AIシステムの「懸念される」安全脆弱性を特定

Most people like

AIFaceSwap.ai

22.1K

AI駆動のフェイススワップツールを活用して、写真や動画を向上させましょう。これらの革新的な技術を使えば、メディア内の顔を簡単に交換し、魅力的で個性的なコンテンツを作成できます。これらの先進的なツールがどのようにデジタル体験を変革できるかを発見してください！

フェイススワップ AI Face Swap Generator

Visily: AI-Powered Wireframing & Design

473.2K

Visilyは、直感的でAI駆動のワイヤーフレームツールを通じて、デザインプロセスを効率化します。

ワイヤーフレームツール AI Product Description Generator

Notion

158.1M

Notionは、ウィキ機能、文書作成、プロジェクト管理ツールをシームレスに統合した強力なオールインワンワークスペースです。

接続されたワークスペース AI Product Description Generator

SCA Prep AI Tutor

5.6K

あなたの可能性を引き出し、最新のAI技術で学習戦略を強化しましょう。AIチューターは、あなたのニーズに合わせたパーソナライズされた指導、効率的な学習プラン、特定の練習問題を提供します。医療資格試験の準備をしている場合でも、複雑な科目の理解を深める場合でも、AIチューターを学習ルーチンに取り入れることで、自信とパフォーマンスを大幅に向上させることができます。今日から、医療試験に向けたより賢く、効果的な準備法に飛び込みましょう！

医療教育 Large Language Models (LLMs)

Find AI tools in YBX