研究人员发现Google Gemini不及GPT-3.5 Turbo，表现欠佳

Home AI News CN 研究人员发现Google Gemini不及GPT-3.5 Turbo，表现欠佳

Updated on 十二月 19 2023

哦，谷歌。你能否在首次推出时成功发布一款人工智能产品？

在推出备受期待的ChatGPT竞争者Gemini不到一个月后，谷歌因其宣传演示中的伪造互动而遭到了重大批评。最近的研究表明，消费者可以获得的最新版本Gemini Pro在大多数任务上落后于OpenAI的GPT-3.5 Turbo大型语言模型。

卡内基梅隆大学和BerriAI的研究小组在其论文《深入了解Gemini的语言能力》中展示的发现显示，Gemini Pro在各种任务上的表现略逊于GPT-3.5 Turbo。该论文于2023年12月19日发表在arXiv.org上，强调Gemini Pro的准确性明显低于OpenAI的旧版本。

谷歌发言人表示，内部研究显示Gemini Pro超越了GPT-3.5，并透露一个更强大的版本Gemini Ultra将在2024年初推出，预计在内部测试中超过GPT-4。发言人称：“Gemini Pro在推理优化模型中表现突出，并与其他领先模型相当。”

研究人员测试了四款大型语言模型：谷歌Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo和Mistral的Mixtral 8x7B。他们利用AI聚合器网站LiteLLM对模型进行了为期四天的评估，涉及57个多项选择题，包括STEM、人文学科和社会科学等领域。

在基于知识的问答测试中，Gemini Pro的分数为64.12/60.63，而GPT-3.5 Turbo达到67.75/70.07，GPT-4 Turbo则为80.48/78.95。值得注意的是，Gemini Pro在回答时倾向于选择“D”，表明其在多项选择题上的指令调优可能不够充分。此外，由于安全响应限制，Gemini Pro在某些特定类别（如人类性行为和形式逻辑）中表现不佳。

虽然Gemini Pro在高中微观经济学和安全问题上略胜于GPT-3.5 Turbo，但这些优势微乎其微。在测试较长或更复杂的查询时，Gemini Pro的准确性低于两个GPT模型，尽管在单词排序和符号处理任务中表现出色。

在编程能力方面，Gemini再次表现不佳，完成Python代码任务的能力不如GPT-3.5 Turbo。尽管Gemini Pro在语言翻译方面显示了潜力，在多种语言中超越了GPT-3.5 Turbo和GPT-4 Turbo，但因内容审核而在许多语言对中阻止了其响应。

这些发现对谷歌的人工智能战略意义重大。随着Gemini Ultra的发布日益临近，谷歌可能会继续在生成AI性能上落后于OpenAI。有趣的是，研究还指出，Mistral的Mixtral 8x7B在大多数任务上的表现也不及GPT-3.5 Turbo，这表明尽管Gemini Pro不是最优秀的，但仍优于一些新兴竞争对手。

总体而言，这项研究进一步确认了OpenAI在生成AI领域的领先地位。正如宾夕法尼亚大学教授Ethan Mollick所言，对于大多数单独应用，GPT-4仍然是更优选择——至少在明年的Gemini Ultra发布之前。

一美元买雪佛兰？探讨AI聊天机器人在汽车客服中的风险与机遇

Patronus AI发现主要AI系统中的“令人担忧”安全漏洞