解密驚人的AI模型，推動ChatGPT多模態能力的提升

Home AI新聞解密驚人的AI模型，推動ChatGPT多模態能力的提升

隨著ChatGPT推出一周年的到來，這一強大語言模型已取得重大進展。OpenAI整合了新功能，包括通過DALL-E 3的圖像生成能力和通過Bing訪問即時信息。然而，引入語音和圖像功能的升級，則徹底重塑了用戶互動方式。

這些創新技術的核心是GPT-4V，也稱為GPT-4 Vision。這一尖端的多模態模型使得用戶可以無縫地與文本和圖像互動。在由微軟—OpenAI的主要合作夥伴和投資者—進行的測試中，GPT-4V展示了其卓越的能力，其中部分在過去未曾測試。其研究結果在名為《LMM的曙光：GPT-4V(ision)的初步探索》的報告中闡述，強調該模型在處理複雜交織輸入方面的廣泛潛力，例如將菜單的圖像與其文本結合起來。

什麼是GPT-4V？

GPT-4V(ision)是OpenAI開發的一款革命性多模態AI模型。它賦予用戶通過一種稱為視覺問答（VQA）的功能，詢問上傳圖像。從十月開始，每月20美元的ChatGPT Plus訂閱用戶及企業版用戶將能在桌面和iOS平台上訪問GPT-4V的功能。

GPT-4V的關鍵能力

- 視覺推理：該模型能理解複雜的視覺關係和上下文細節，根據圖像回答問題，而不僅僅是識別物體。

- 指令執行：用戶可以提供文本指令，使模型輕鬆執行新的視覺語言任務。

- 上下文學習：GPT-4V展示了強大的少量學習能力，可以在僅有少量示例的情況下適應新任務。

- 視覺引用：該模型能識別箭頭和框框等視覺提示，精確跟隨指令。

- 密集說明：GPT-4V可以生成詳細的多句描述，以傳達複雜的內容關係。

- 計數：該模型能根據用戶查詢準確計算圖像中的物體數量。

- 編碼：它已展示出基於視覺輸入生成代碼的能力，例如JSON解析。

與早期的多模態模型相比，GPT-4V在視覺語言理解方面的提升顯著，顯示出其在AI應用中的轉型潛力。

GPT-4V的限制

儘管其能力令人印象深刻，但GPT-4V也有局限性。希望利用其解決高度複雜任務的用戶可能會遇到挑戰，尤其是在面對獨特或特別設計的提示時。在應用於新樣本或未見樣本時，其表現也受限，某些複雜場景需要量身定製的提示才能有效運作。

大型多模態模型（LMMs）的崛起

多模態AI的崛起代表著技術的重要演變。文本生成模型現在增強了處理圖像的能力，簡化用戶查詢和互動。這一演變使OpenAI更接近實現人工通用智能（AGI）的長期理想，這也是AI界所渴望的里程碑。該組織致力於創造強大且安全的AGI，以促使各國政府建立監管規範。

OpenAI並不孤單，其他科技巨頭如Meta也在投入多模態AI研究。在圖靈獎得主Yann LeCun的指導下，Meta積極開發SeamlessM4T、AudioCraft和Voicebox等模型，以創造更包容的元宇宙。此外，新成立的前沿模型論壇，包括OpenAI、微軟、谷歌和Anthropic等領先AI開發者，致力於推進下一代多模態模型，突顯該領域在AI研究中的日益重要性。

隨著這些發展，人工智能的格局正在迅速演變，為創意應用和提升用戶體驗展現了巨大的潛力。

哈佛研究發現 GPT-4 提升工作品質超過 40%

介紹價值10億美元的「AI超雲端」：為未來轉型商業AI工作負載