隨著ChatGPT推出一周年的到來,這一強大語言模型已取得重大進展。OpenAI整合了新功能,包括通過DALL-E 3的圖像生成能力和通過Bing訪問即時信息。然而,引入語音和圖像功能的升級,則徹底重塑了用戶互動方式。
這些創新技術的核心是GPT-4V,也稱為GPT-4 Vision。這一尖端的多模態模型使得用戶可以無縫地與文本和圖像互動。在由微軟—OpenAI的主要合作夥伴和投資者—進行的測試中,GPT-4V展示了其卓越的能力,其中部分在過去未曾測試。其研究結果在名為《LMM的曙光:GPT-4V(ision)的初步探索》的報告中闡述,強調該模型在處理複雜交織輸入方面的廣泛潛力,例如將菜單的圖像與其文本結合起來。
什麼是GPT-4V?
GPT-4V(ision)是OpenAI開發的一款革命性多模態AI模型。它賦予用戶通過一種稱為視覺問答(VQA)的功能,詢問上傳圖像。從十月開始,每月20美元的ChatGPT Plus訂閱用戶及企業版用戶將能在桌面和iOS平台上訪問GPT-4V的功能。
GPT-4V的關鍵能力
- 視覺推理:該模型能理解複雜的視覺關係和上下文細節,根據圖像回答問題,而不僅僅是識別物體。
- 指令執行:用戶可以提供文本指令,使模型輕鬆執行新的視覺語言任務。
- 上下文學習:GPT-4V展示了強大的少量學習能力,可以在僅有少量示例的情況下適應新任務。
- 視覺引用:該模型能識別箭頭和框框等視覺提示,精確跟隨指令。
- 密集說明:GPT-4V可以生成詳細的多句描述,以傳達複雜的內容關係。
- 計數:該模型能根據用戶查詢準確計算圖像中的物體數量。
- 編碼:它已展示出基於視覺輸入生成代碼的能力,例如JSON解析。
與早期的多模態模型相比,GPT-4V在視覺語言理解方面的提升顯著,顯示出其在AI應用中的轉型潛力。
GPT-4V的限制
儘管其能力令人印象深刻,但GPT-4V也有局限性。希望利用其解決高度複雜任務的用戶可能會遇到挑戰,尤其是在面對獨特或特別設計的提示時。在應用於新樣本或未見樣本時,其表現也受限,某些複雜場景需要量身定製的提示才能有效運作。
大型多模態模型(LMMs)的崛起
多模態AI的崛起代表著技術的重要演變。文本生成模型現在增強了處理圖像的能力,簡化用戶查詢和互動。這一演變使OpenAI更接近實現人工通用智能(AGI)的長期理想,這也是AI界所渴望的里程碑。該組織致力於創造強大且安全的AGI,以促使各國政府建立監管規範。
OpenAI並不孤單,其他科技巨頭如Meta也在投入多模態AI研究。在圖靈獎得主Yann LeCun的指導下,Meta積極開發SeamlessM4T、AudioCraft和Voicebox等模型,以創造更包容的元宇宙。此外,新成立的前沿模型論壇,包括OpenAI、微軟、谷歌和Anthropic等領先AI開發者,致力於推進下一代多模態模型,突顯該領域在AI研究中的日益重要性。
隨著這些發展,人工智能的格局正在迅速演變,為創意應用和提升用戶體驗展現了巨大的潛力。