OpenAI推出了最新模型GPT-4o,這款模型能夠幽默地回應冷笑話,適時唱歌,甚至協助召喚倫敦的計程車,與此同時能夠在日常人類打斷中進行真實對話。在其備受期待的春季更新活動中,有113,000人參加了直播,OpenAI展示了16段影片,顯示了GPT-4o的實力。這款多模態大型語言模型(LLM)能即時基於音頻、視覺和文本輸入,使用男聲和女聲互動。
其中一段影片中,GPT-4o辨識出OpenAI總裁Greg Brockman即將發表公告,並俏皮地回答:“這個公告是關於我嗎?那我真是充滿好奇。你讓我坐不住了……好吧,我其實沒有座位,但你懂我的意思。”
目前,OpenAI的API和ChatGPT已提供文本和圖像輸入功能,而語音和視頻能力將在接下來幾週推出。GPT-4o能準確讀取用戶的情緒線索,並在各種主題上提供建議。在一個演示中,模型與另一個版本的自己對話,打趣說:“好吧,天哪,就當我以為事情不會更有趣——跟另一個能看見世界的AI交談。”
當被要求描述周圍環境時,模型輪流敘述一位時尚男士,註明他的服裝細節及房間的燈光情況。當另一個人玩笑打斷時,GPT-4o甚至唱出了“帶著調皮的驚喜來賓”的歌曲。其他演示突顯了GPT-4o的多樣技能:它為冷笑話大笑、進行西班牙語和英語的即時翻譯、唱出“壯麗馬鈴薯”的搖籃曲,並準確識別石頭、剪刀、布的勝者。它僅通過注意到蛋糕和蠟燭的存在就識別出生日慶祝活動。
與小狗互動時,GPT-4o愉快地問:“嗨,小可愛,你叫什麼名字,小毛球?”(小狗的名字是Bowser)。在引導一位盲人穿越倫敦的過程中,GPT-4o識別了皇家標準旗,並描述了“輕柔滑行於水面的鴨子”。
此外,GPT-4o能協助解決教育挑戰,例如幫助學生理解與三角形計算相關的數學問題。它有效地以正面強化方式鼓勵學生,稱讚道:“你在識別邊長方面做得很好。”這個模型甚至為一位看起來不整齊的求職者提供了時尚建議,幽默地說:“你絕對擁有‘我一整晚都在編程’的造型,這其實可能對你有利,”同時建議快速整理髮型。
對GPT-4o的反應在社交媒體上反差頗大。一些用戶稱讚其能力為開創性,聲稱它“征服了網路”,並可與谷歌翻譯相抗衡。Nvidia的資深研究科學家Jim Fan形容這個模型“充滿活力,甚至有些調皮”,類比於科幻電影《她》。
相對地,一些觀察者則認為此產品發布“被低估”,而AI顧問Allie K. Miller指出,科技愛好者之間存在著對先進功能的期望落差。隨著初步反應的出現,未來幾天用戶如何與GPT-4o互動將會十分令人期待。