OpenAI的總裁Greg Brockman近期在他的X帳號上分享了該公司新推出的GPT-4o模型產生的首幅公開圖像。這幅圖像顯示一位穿著印有OpenAI標誌黑色T恤的人正在黑板上書寫,內容為「模態轉換。假設我們直接用一個大型自回歸變壓器來建模P(文本、像素、聲音)。這樣的優缺點是什麼?」
GPT-4o模型於週一發布,改進了之前的GPT-4系列(包括GPT-4、GPT-4 Vision和GPT-4 Turbo),提供更快的處理速度、降低成本,以及更佳的多樣性輸入資訊保存能力,包括音頻與視覺資料。
OpenAI在訓練GPT-4o時採用多媒體代幣,無需先將音頻和視覺數據轉換為文本,這使模型能直接分析和解釋這些媒體格式,運作更為流暢和高效,相較於早期依賴多個相互連接模型的GPT-4。
相比於2023年9月發布的OpenAI DALL-E 3產生的圖像,GPT-4o模型在質量、照片真實感和文本準確性方面有明顯的提升。
目前,GPT-4o的原生圖像生成能力尚未公開,正如Brockman在他的帖子中所提到的,「團隊正在努力將其推向市場。」