蘋果研究人員開發出一種能「看見」並理解螢幕內容的人工智慧,提升用戶體驗

蘋果公司的研究人員近日揭示了一個先進的人工智能系統,該系統提升了語音助手對模糊引用和周圍上下文的理解,促進了更自然的互動。這項創新在週五公佈的論文中名為ReALM(Reference Resolution As Language Modeling)。

ReALM利用大型語言模型,將複雜的引用解析任務(包括識別屏幕上的視覺元素)轉變為語言建模挑戰,這一轉變顯著提升了目前方法的效能。研究團隊表示:「理解上下文,包括引用,對於會話助手至關重要。讓用戶能夠查詢可見的屏幕內容對於實現真正的免手持語音助手體驗至關重要。」

強化會話助手的能力

ReALM的一大亮點是它能使用解析後的實體及其位置重建屏幕上的視覺效果,生成與視覺佈局一致的文本描述。團隊證明,結合對語言模型進行專門微調以處理引用,這種方法的表現超越了GPT-4。

蘋果的AI系統ReALM能有效詮釋屏幕項目的引用,例如在一個模擬圖中的「260 Sample Sale」清單,從而促進了與語音助手更豐富的互動。研究人員指出:「我們在處理各類引用類型的系統上顯著提升小型模型的屏幕引用準確率超過5%。我們的大型模型則大幅優於GPT-4。」

實際應用與挑戰

這項研究強調了針對特定任務進行微調的語言模型能在生產環境中執行引用解析等任務的潛力,因為大型端到端模型可能因延遲或計算限制而不適用。透過這些發現,蘋果重申其提升Siri及其他產品的會話和語境意識能力的承諾。

然而,團隊也承認自動屏幕解析的挑戰。解決複雜的視覺引用(如區分多個圖像)可能需要結合計算機視覺和多模態技術。

蘋果的AI雄心

蘋果在人工智能研究方面快速進展,儘管目前在AI領域競爭中略遜於對手。其最新進展涵蓋了融合視覺與語言數據的多模態模型以及AI驅動的動畫工具。

儘管以謹慎聞名,蘋果仍面臨來自谷歌、微軟、亞馬遜和OpenAI等公司的強烈競爭,這些公司已積極將生成式AI嵌入其產品中。隨著AI領域的迅速演變,蘋果目前面臨著挑戰。業界對即將到來的全球開發者大會充滿期待,預計該公司將推出名為「Apple GPT」的新大型語言模型框架,以及更多AI功能。

首席執行官Tim Cook在財報電話會議中透露,蘋果將在今年晚些時候分享其AI計劃的最新細節。儘管公司的戰略仍然較為低調,但其AI方面的工作範圍顯然正在擴大。在AI領導地位的競爭愈發激烈之際,蘋果的晚進使其面臨競爭壓力。然而,其龐大的資源、品牌忠誠度、卓越的工程技術和綜合產品組合為其提供了潛在優勢。

智能計算的新時代即將來臨。今年六月,我們將見證蘋果是否做好準備,對這一轉型產生影響。

Most people like

Find AI tools in YBX