谷歌在周三发布了备受期待的人工智能系统Gemini,并声称其基准测试显示该系统在推理能力上可能与OpenAI的先锋产品GPT-4相媲美。然而,这一发布迅速遭到了外界对Gemini能力夸大之嫌的批评。
在一段精心制作的视频演示中,谷歌展示了Gemini与视觉数据的互动。视频中,一台摄像头悬挂在桌上,Gemini通过人类助手操控的各种物体进行问题解决。这一演示暗示,Gemini有潜力成为一款先进的数字助手,能够进行细致的对话并协助日常任务。
尽管受到一些关注,技术专家对Gemini背后的技术进行了审视,并指出其潜在的短板。谷歌推出了三种版本的Gemini:Gemini Pro、Gemini Light和Gemini Ultra。中端版本Pro的早期评测引发了担忧,结果表明该版本在处理一些应当轻松应对的任务时表现不佳。
“我对Bard上的Gemini Pro感到非常失望,”早期测试人员Victor de Lucca表示,他指出该系统未能准确列出2023年奥斯卡获奖者。“它对原本不难的问题仍然给出了非常糟糕的答案。”
其他人也指出,谷歌的基准声称与Pro版本的实际能力之间存在不一致。开发者Nick Dobos在广为传播的帖子中提到,“谷歌Gemini Ultra的表现仅比GPT-4-0613好4%,这使用了不同的提示?”这表明比较可能具有误导性。
此外,视频演示也遭到质疑,谷歌发言人向彭博社确认,这段视频是预先录制并配有旁白,而非实时互动,这引发了对其真实性的质疑。
这场争议凸显了谷歌在向消费者推广人工智能时面临的挑战。尽管科技爱好者在分析基准数据,但更广泛的公众往往被那些承诺改变体验的激励视频所影响。
这种脱节并不新鲜;例如,2016年,微软的聊天机器人Tay因学习不当内容被迫下线。此外,谷歌Bard因未能达到预期而遭受批评也并非第一次。在九月份的一份媒体报道中提到,尽管进行了大量更新,Bard仍然面临困境。
谷歌希望迅速弥补,承诺将Gemini更广泛地提供给开发者和研究人员进行评估。然而,艰难的推出过程表明,这家科技巨头需要解决多个挑战,才能确保其人工智能助手能够兑现其雄心勃勃的承诺。