哦,Google。你是否能在第一次嘗試中成功推出一款AI產品?
在推出備受期待的ChatGPT競爭對手Gemini不到一個月後,Google面臨了重大批評,因為其推廣演示中確認存在預設互動的問題。近期研究顯示,市場上最先進的版本Gemini Pro在大多數任務中均落後於OpenAI的GPT-3.5 Turbo大型語言模型(LLM)。
由卡內基梅隆大學和BerriAI團隊發表的論文《深入研究Gemini的語言能力》揭示,Gemini Pro在各項任務中的表現略遜於GPT-3.5 Turbo。該論文於arXiv.org上發佈,強調截至2023年12月19日,Gemini Pro的準確性明顯不如OpenAI的舊版本。
Google的發言人回應稱,內部研究顯示Gemini Pro超越了GPT-3.5,並表示一個更強大的版本Gemini Ultra將在2024年初推出,內部測試中表現超過GPT-4。他們表示:“Gemini Pro在推理優化模型如GPT-3.5中表現優於,且在與其他領先模型的比較中相當。”
研究人員測試了四個LLM:Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo,以及Mistral的Mixtral 8x7B。他們使用AI聚合網站LiteLLM,對模型進行了為期四天的評估,採用了各種提示,包括57道涉及STEM、人文和社會科學的多選題。
在基於知識的QA測試中,Gemini Pro得分64.12/60.63,而GPT-3.5 Turbo得分67.75/70.07,GPT-4 Turbo則得分80.48/78.95。值得注意的是,Gemini始終偏好答案選擇“D”,顯示出可能由於對多選格式的指導不足而產生的偏見。此外,由於安全反應限制,它在特定類別(如人類性和形式邏輯)上表現不佳。
儘管Gemini Pro在高中微觀經濟學和安全問題上超越了GPT-3.5 Turbo,但這些增長有限。在測試更長或更複雜的查詢時,Gemini Pro的準確性相較於兩個GPT模型有所下降,儘管它在單詞排序和符號操作任務中表現優異。
在程式編寫能力方面,Gemini在完成Python代碼任務上的表現也不如GPT-3.5 Turbo。儘管Gemini Pro在多種語言的翻譯上展現出潛力,超越了GPT-3.5 Turbo和GPT-4 Turbo,但由於內容審核,它在多種語言對中也顯示出封鎖回應的趨勢。
這些研究結果對Google的AI發展具有重大影響。隨著Gemini Ultra的推出日益臨近,Google可能會在生成AI性能上繼續落後於OpenAI。有趣的是,研究還指出Mistral的Mixtral 8x7B在大多數任務中的表現不如GPT-3.5 Turbo,這表明雖然Gemini Pro不是最好的,但仍超越了一些新興競爭對手。
總體而言,這項研究強化了OpenAI在生成AI領域目前仍保持領先地位的觀點。正如賓夕法尼亞大學教授Ethan Mollick所指出的,對於大多數個別應用而言,GPT-4仍是最佳選擇——至少在明年Gemini Ultra推出之前。