蘋果的研究人員開發了一個名為 ReALM(參考解析作為語言建模)的人工智慧系統,旨在顯著提升語音助手對指令的理解和回應能力。
在最新的研究論文中,蘋果闡述了 ReALM 如何利用大型語言模型來解決參考解析的挑戰。該系統擅長解釋模糊的螢幕實體參考及在對話中理解語境,讓用戶與設備之間的互動變得更加直觀和自然。
參考解析是自然語言理解的重要方面,使得用戶能夠在對話中使用代名詞和間接參考,而不會引起混淆。然而,由於處理各種口頭提示和視覺信息的複雜性,這對數位助手來說一直是一個重大挑戰。ReALM 嘗試將這一複雜過程簡化為一個直接的語言建模任務,從而更好地理解對話中指向螢幕視覺元素的參考。
ReALM 透過文本表示重建螢幕的視覺佈局,分析螢幕上的實體及其位置,生成一種反映螢幕內容和結構的文本格式。蘋果的研究人員發現,經過特別調整的語言模型在參考解析任務中的表現顯著優於傳統方法,包括 OpenAI 的 GPT-4。
這一進展使用戶能夠更有效地與數位助手互動,基於螢幕顯示的內容,消除了對精確詳細描述的需求。它為語音助手的應用開闢了更大的潛力,例如在駕駛時協助駕駛者獲取導航資訊,或為殘障用戶提供更簡單、更準確的間接互動。
最近,蘋果發布了幾項與人工智慧相關的研究,尤其是上個月發表的無縫整合文本和視覺信息的大型語言模型訓練方法。人們對即將於六月份舉行的 WWDC 大會充滿期待,蘋果預計將推出一系列新的 AI 功能。