在最近的Google Next活动上,谷歌宣布对其AI模型Gemini 1.5 Pro进行了重大更新,赋予其前所未有的音频处理能力。现在,Gemini 1.5 Pro能够直接解析和分析上传的音频文件,从财报电话会议或视频音轨中提取有价值的信息,无需书面转录。
此次更新的一个重要亮点是,Gemini 1.5 Pro在性能上已超过此前系列中最强大的模型Gemini Ultra。谷歌指出,该模型能够理解复杂的指令,而无需进行微调,这标志着AI技术的重要进步。
需要注意的是,Gemini 1.5 Pro的访问权限仅限于具有Vertex AI和AI Studio能力的用户。大多数用户通过Gemini聊天机器人与Gemini的语言模型进行互动,而Gemini Ultra则支持更先进的Gemini聊天机器人。虽然Gemini Ultra功能强大,但在速度上不及Gemini 1.5 Pro。
此外,谷歌还推出了另一款大型AI模型Imagen 2的更新。这款先进的文本转图像生成系统增强了Gemini的图像处理能力,现在用户可以在图像中添加或删除元素。谷歌还推出了SynthID,这是一种用于所有使用Imagen模型创建的图像的数字水印功能,嵌入不可见标记以表明图像的来源。
谷歌还预览了一种新方法,将AI响应与谷歌搜索结合,能够根据实时信息提供答案。这意味着大型语言模型可以提供当前数据,而不再仅仅依赖于现有信息。然而,谷歌决定限制Gemini对与2024年美国选举相关问题的响应,体现了其对负责任处理敏感信息的承诺。
值得注意的是,Gemini因生成不准确的历史人物图像而受到批评,这提醒我们尽管AI技术不断进步,在处理历史和现实数据时仍需保持谨慎。