蘋果研究團隊推出具“視覺”能力的AI系統，能夠理解螢幕內容

Home 硬體蘋果研究團隊推出具“視覺”能力的AI系統，能夠理解螢幕內容

蘋果研究人員開發了一套名為 ReALM（Reference Resolution As Language Modeling）的創新 AI 系統，旨在提升數位助手對模糊參考和對話上下文的理解，從而實現更自然的互動。此項突破性進展近期已宣佈。

ReALM 利用大型語言模型，將理解螢幕上視覺元素等複雜參考解析任務轉化為語言建模挑戰。根據蘋果研究團隊的說法，這一方法明顯超越了傳統技術，他們指出：「理解上下文與參考對於會話助手至關重要。讓使用者能查詢螢幕內容是實現真正免手操作體驗的一個關鍵步驟。」

ReALM 在參考解析方面的一大進步是能夠使用位置解析重新定位螢幕上的實體，生成保持視覺佈局的文本表示。測試顯示，這種方法在結合專門調整的語言模型後，性能優於 GPT-4。研究者表示：「我們的系統在各種類型的參考任務中顯著提高了表現，較小模型在涉及螢幕參考的任務上實現了超過 5% 的絕對增益，而較大模型的表現則大幅超越 GPT-4。」

這項研究凸顯了專門語言模型在解決參考解析任務中的潛力。在實際應用中，由於延遲或計算限制，部署大型端到端模型可能不太實際。這些發現展示了蘋果持續致力於提升 Siri 等產品的對話能力和上下文理解。

然而，研究人員也警告自動螢幕解析存在其局限性。面對更複雜的視覺參考，如區分多個圖像，可能需要整合電腦視覺與多模態技術。

蘋果在 AI 領域悄然取得顯著進展，儘管在這個快速變化的市場中仍落後於競爭對手。公司的研究實驗室持續在多模態模型、AI 驅動工具及高性能專門 AI 技術方面創新，反映出其在人工智慧領域的雄心。

隨著即將到來的全球開發者大會（WWDC）預定於六月舉行，大眾對蘋果將推出的新大型語言模型框架、「蘋果 GPT」聊天機器人及其他 AI 功能充滿期待，旨在快速適應變化的市場動態。

即將推出的iPhone AI創新：探索新功能與未來趨勢

蘋果研究人員聲稱，ReALM 裝置模型超越 GPT-4，顯著提升 Siri 的智能。

Most people like

录咖

94.6K

AI驅動的音視頻處理平台：提升內容創作和編輯的效率與準確度隨著人工智慧技術的迅速录咖，音視頻處理平台正以前所未有的方式改變內容創作領域。AI驅動的工具能夠自動化編輯、增強畫質、優化音訊質量，極大地提高了創作者的工作效率。無論是在社交媒體、視頻製作還是直播中，這些平台都為用戶提供了智能化的解決方案，讓內容創作變得更簡單、更高效。探索AI驅動的音視頻處理平台，全面提升您的創作體驗。

音視頻處理 AI Video Recording

Finvi

15K

介紹一款為 ARM 和醫療行業打造的 AI 驅動工作流程平台探索我們先進的 AI 驅動工作流程平台如何改變應收賬款管理 (ARM) 和醫療行業。通過精簡流程和提升運營效率，我們的平台使組織能夠優化工作流程、改善病患結果，並加速收入周期。與專為您的需求量身定制的尖端技術一起，探索行業創新的未來。

AI驅動的工作流程平台 Healthcare

Letterdrop

64.5K

Letterdrop 是一款先進的 AI 驅動 SEO 工具，旨在通過有效理解和響應用戶搜索意圖來提升網站流量。

SEO內容優化 AI Content Generator

Flux.1 AI

172.3K

探索先進AI技術的前沿世界，這些技術旨在從文本生成驚人的圖像。這種創新的方法利用強大的算法和深度學習技術，將書面描述轉化為生動的視覺表現。無論您是藝術家、設計師或對AI潛力充滿好奇，這本全面的指南將揭示文本到圖像生成的能力和應用，展示其如何徹底改變創意和內容創作。

文本轉圖像合成 Text to Image

Find AI tools in YBX