哦,谷歌。你能否在首次推出时成功发布一款人工智能产品?
在推出备受期待的ChatGPT竞争者Gemini不到一个月后,谷歌因其宣传演示中的伪造互动而遭到了重大批评。最近的研究表明,消费者可以获得的最新版本Gemini Pro在大多数任务上落后于OpenAI的GPT-3.5 Turbo大型语言模型。
卡内基梅隆大学和BerriAI的研究小组在其论文《深入了解Gemini的语言能力》中展示的发现显示,Gemini Pro在各种任务上的表现略逊于GPT-3.5 Turbo。该论文于2023年12月19日发表在arXiv.org上,强调Gemini Pro的准确性明显低于OpenAI的旧版本。
谷歌发言人表示,内部研究显示Gemini Pro超越了GPT-3.5,并透露一个更强大的版本Gemini Ultra将在2024年初推出,预计在内部测试中超过GPT-4。发言人称:“Gemini Pro在推理优化模型中表现突出,并与其他领先模型相当。”
研究人员测试了四款大型语言模型:谷歌Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo和Mistral的Mixtral 8x7B。他们利用AI聚合器网站LiteLLM对模型进行了为期四天的评估,涉及57个多项选择题,包括STEM、人文学科和社会科学等领域。
在基于知识的问答测试中,Gemini Pro的分数为64.12/60.63,而GPT-3.5 Turbo达到67.75/70.07,GPT-4 Turbo则为80.48/78.95。值得注意的是,Gemini Pro在回答时倾向于选择“D”,表明其在多项选择题上的指令调优可能不够充分。此外,由于安全响应限制,Gemini Pro在某些特定类别(如人类性行为和形式逻辑)中表现不佳。
虽然Gemini Pro在高中微观经济学和安全问题上略胜于GPT-3.5 Turbo,但这些优势微乎其微。在测试较长或更复杂的查询时,Gemini Pro的准确性低于两个GPT模型,尽管在单词排序和符号处理任务中表现出色。
在编程能力方面,Gemini再次表现不佳,完成Python代码任务的能力不如GPT-3.5 Turbo。尽管Gemini Pro在语言翻译方面显示了潜力,在多种语言中超越了GPT-3.5 Turbo和GPT-4 Turbo,但因内容审核而在许多语言对中阻止了其响应。
这些发现对谷歌的人工智能战略意义重大。随着Gemini Ultra的发布日益临近,谷歌可能会继续在生成AI性能上落后于OpenAI。有趣的是,研究还指出,Mistral的Mixtral 8x7B在大多数任务上的表现也不及GPT-3.5 Turbo,这表明尽管Gemini Pro不是最优秀的,但仍优于一些新兴竞争对手。
总体而言,这项研究进一步确认了OpenAI在生成AI领域的领先地位。正如宾夕法尼亚大学教授Ethan Mollick所言,对于大多数单独应用,GPT-4仍然是更优选择——至少在明年的Gemini Ultra发布之前。