蘋果研究人員開發了一套名為 ReALM(Reference Resolution As Language Modeling)的創新 AI 系統,旨在提升數位助手對模糊參考和對話上下文的理解,從而實現更自然的互動。此項突破性進展近期已宣佈。
ReALM 利用大型語言模型,將理解螢幕上視覺元素等複雜參考解析任務轉化為語言建模挑戰。根據蘋果研究團隊的說法,這一方法明顯超越了傳統技術,他們指出:「理解上下文與參考對於會話助手至關重要。讓使用者能查詢螢幕內容是實現真正免手操作體驗的一個關鍵步驟。」
ReALM 在參考解析方面的一大進步是能夠使用位置解析重新定位螢幕上的實體,生成保持視覺佈局的文本表示。測試顯示,這種方法在結合專門調整的語言模型後,性能優於 GPT-4。研究者表示:「我們的系統在各種類型的參考任務中顯著提高了表現,較小模型在涉及螢幕參考的任務上實現了超過 5% 的絕對增益,而較大模型的表現則大幅超越 GPT-4。」
這項研究凸顯了專門語言模型在解決參考解析任務中的潛力。在實際應用中,由於延遲或計算限制,部署大型端到端模型可能不太實際。這些發現展示了蘋果持續致力於提升 Siri 等產品的對話能力和上下文理解。
然而,研究人員也警告自動螢幕解析存在其局限性。面對更複雜的視覺參考,如區分多個圖像,可能需要整合電腦視覺與多模態技術。
蘋果在 AI 領域悄然取得顯著進展,儘管在這個快速變化的市場中仍落後於競爭對手。公司的研究實驗室持續在多模態模型、AI 驅動工具及高性能專門 AI 技術方面創新,反映出其在人工智慧領域的雄心。
隨著即將到來的全球開發者大會(WWDC)預定於六月舉行,大眾對蘋果將推出的新大型語言模型框架、「蘋果 GPT」聊天機器人及其他 AI 功能充滿期待,旨在快速適應變化的市場動態。