Google Gemini 1.5 Pro 公開預覽啟動：探索全新語音識別功能

Home AI新聞 Google Gemini 1.5 Pro 公開預覽啟動：探索全新語音識別功能

在最近的 Google Next 活動中，Google 宣布其 AI 模型 Gemini 1.5 Pro 進行了重要更新，增強了前所未有的音頻處理能力。現在，Gemini 1.5 Pro 能夠直接解釋和分析上傳的音頻文件，從收益電話會議或視頻音頻中提取有價值的信息，而無需書面轉錄。

此次更新的一大亮點是，Gemini 1.5 Pro 在性能上超越了原本最強大的模型 Gemini Ultra。Google 表示，這款模型能夠理解複雜指令，而無需進一步調整，標誌著 AI 技術的重大進展。

需要注意的是，Gemini 1.5 Pro 僅限於具備 Vertex AI 和 AI Studio 功能的用戶使用。大多數用戶通過 Gemini 聊天機器人與 Gemini 的語言模型互動，而 Gemini Ultra 則支持更先進的 Gemini 聊天機器人。儘管 Gemini Ultra 具備強大的能力，但其速度仍不及 Gemini 1.5 Pro。

此外，Google 還推出了另一個大型 AI 模型的更新，Imagen 2。這一先進的文本到圖像生成系統強化了 Gemini 的影像能力，現在用戶可以在圖像內部添加或移除元素。Google 還引入了 SynthID，這是一項為所有使用 Imagen 模型創建的圖像嵌入數字水印的功能，以隱形標記顯示圖像的來源。

更重要的是，Google 預覽了一種新方法，將 AI 響應與 Google 搜索整合，能夠基於實時信息提供答案。這意味著大型語言模型將能夠提供當前數據，而不僅僅依賴於已有的信息。然而，Google 決定限制 Gemini 回應與 2024 年美國大選相關的問題，以表明其負責處理敏感信息的承諾。

值得注意的是，Gemini 曾因生成不準確的歷史人物圖像而受到批評，這提醒我們儘管 AI 技術不斷進步，在處理歷史和現實數據時仍需謹慎。

人工智慧時代的電子商務新趨勢：eBay推出智能時尚搭配購物體驗

Google Imagen 2推出「文字轉動態影像」功能：人工智慧能否改變GIF創作？