谷歌Gemini 1.5 Pro公开预览上线：探索全新语音识别功能

Home AI News CN 谷歌Gemini 1.5 Pro公开预览上线：探索全新语音识别功能

在最近的Google Next活动上，谷歌宣布对其AI模型Gemini 1.5 Pro进行了重大更新，赋予其前所未有的音频处理能力。现在，Gemini 1.5 Pro能够直接解析和分析上传的音频文件，从财报电话会议或视频音轨中提取有价值的信息，无需书面转录。

此次更新的一个重要亮点是，Gemini 1.5 Pro在性能上已超过此前系列中最强大的模型Gemini Ultra。谷歌指出，该模型能够理解复杂的指令，而无需进行微调，这标志着AI技术的重要进步。

需要注意的是，Gemini 1.5 Pro的访问权限仅限于具有Vertex AI和AI Studio能力的用户。大多数用户通过Gemini聊天机器人与Gemini的语言模型进行互动，而Gemini Ultra则支持更先进的Gemini聊天机器人。虽然Gemini Ultra功能强大，但在速度上不及Gemini 1.5 Pro。

此外，谷歌还推出了另一款大型AI模型Imagen 2的更新。这款先进的文本转图像生成系统增强了Gemini的图像处理能力，现在用户可以在图像中添加或删除元素。谷歌还推出了SynthID，这是一种用于所有使用Imagen模型创建的图像的数字水印功能，嵌入不可见标记以表明图像的来源。

谷歌还预览了一种新方法，将AI响应与谷歌搜索结合，能够根据实时信息提供答案。这意味着大型语言模型可以提供当前数据，而不再仅仅依赖于现有信息。然而，谷歌决定限制Gemini对与2024年美国选举相关问题的响应，体现了其对负责任处理敏感信息的承诺。

值得注意的是，Gemini因生成不准确的历史人物图像而受到批评，这提醒我们尽管AI技术不断进步，在处理历史和现实数据时仍需保持谨慎。

AI时代电商新趋势：eBay推出智能时尚搭配购物体验

谷歌Imagen 2发布“文本转动图像”功能：AI能否革新GIF制作？