研究人員發現，Google Gemini 在表現上不及 GPT-3.5 Turbo

Home AI新聞研究人員發現，Google Gemini 在表現上不及 GPT-3.5 Turbo

Updated on 十二月 19 2023

哦，Google。你是否能在第一次嘗試中成功推出一款AI產品？

在推出備受期待的ChatGPT競爭對手Gemini不到一個月後，Google面臨了重大批評，因為其推廣演示中確認存在預設互動的問題。近期研究顯示，市場上最先進的版本Gemini Pro在大多數任務中均落後於OpenAI的GPT-3.5 Turbo大型語言模型（LLM）。

由卡內基梅隆大學和BerriAI團隊發表的論文《深入研究Gemini的語言能力》揭示，Gemini Pro在各項任務中的表現略遜於GPT-3.5 Turbo。該論文於arXiv.org上發佈，強調截至2023年12月19日，Gemini Pro的準確性明顯不如OpenAI的舊版本。

Google的發言人回應稱，內部研究顯示Gemini Pro超越了GPT-3.5，並表示一個更強大的版本Gemini Ultra將在2024年初推出，內部測試中表現超過GPT-4。他們表示：“Gemini Pro在推理優化模型如GPT-3.5中表現優於，且在與其他領先模型的比較中相當。”

研究人員測試了四個LLM：Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo，以及Mistral的Mixtral 8x7B。他們使用AI聚合網站LiteLLM，對模型進行了為期四天的評估，採用了各種提示，包括57道涉及STEM、人文和社會科學的多選題。

在基於知識的QA測試中，Gemini Pro得分64.12/60.63，而GPT-3.5 Turbo得分67.75/70.07，GPT-4 Turbo則得分80.48/78.95。值得注意的是，Gemini始終偏好答案選擇“D”，顯示出可能由於對多選格式的指導不足而產生的偏見。此外，由於安全反應限制，它在特定類別（如人類性和形式邏輯）上表現不佳。

儘管Gemini Pro在高中微觀經濟學和安全問題上超越了GPT-3.5 Turbo，但這些增長有限。在測試更長或更複雜的查詢時，Gemini Pro的準確性相較於兩個GPT模型有所下降，儘管它在單詞排序和符號操作任務中表現優異。

在程式編寫能力方面，Gemini在完成Python代碼任務上的表現也不如GPT-3.5 Turbo。儘管Gemini Pro在多種語言的翻譯上展現出潛力，超越了GPT-3.5 Turbo和GPT-4 Turbo，但由於內容審核，它在多種語言對中也顯示出封鎖回應的趨勢。

這些研究結果對Google的AI發展具有重大影響。隨著Gemini Ultra的推出日益臨近，Google可能會在生成AI性能上繼續落後於OpenAI。有趣的是，研究還指出Mistral的Mixtral 8x7B在大多數任務中的表現不如GPT-3.5 Turbo，這表明雖然Gemini Pro不是最好的，但仍超越了一些新興競爭對手。

總體而言，這項研究強化了OpenAI在生成AI領域目前仍保持領先地位的觀點。正如賓夕法尼亞大學教授Ethan Mollick所指出的，對於大多數個別應用而言，GPT-4仍是最佳選擇——至少在明年Gemini Ultra推出之前。

一美元的雪佛蘭可能嗎？探討人工智慧聊天機器人在汽車客服中的風險

Patronus AI 識別出主要人工智慧系統中「令人擔憂」的安全漏洞