隨著生成式人工智慧競爭的加劇,Meta推出了其創新的多模態模型Chameleon的預覽。與當前將不同模態組件相結合的模型不同,Chameleon是為多模態而原生設計的。
儘管這些模型尚未公開,但初步實驗顯示,Chameleon在圖像標題生成和視覺問答(VQA)等任務中表現卓越,同時在單一文本挑戰中也具備競爭力。
Chameleon的架構
Chameleon採用“早期融合基於標記的混合模態”架構,一種先進的設計,可以處理交錯的圖像、文本、代碼等。它將圖像轉換為離散標記,類似於語言模型處理單詞的方式,Chameleon使用統一的詞彙,整合文本、代碼和圖像標記。這使得同一個變壓器架構能夠無縫處理包含文本和圖像的序列。
研究人員指出,與之最為相似的模型是Google Gemini,它也採用早期融合的方法。然而,Gemini在生成過程中依賴單獨的圖像解碼器,而Chameleon則作為端到端模型,同時處理和生成標記。這種統一的標記空間讓Chameleon能夠生成交錯的文本和圖像序列,無需特定模態的組件。
克服早期融合挑戰
儘管早期融合具有優勢,但在模型訓練和擴展中面臨重大挑戰。為了應對這些問題,研究小組採用了幾種架構修改和訓練技術。他們的研究詳述了各種實驗及其對模型性能的影響。
Chameleon進行兩階段的訓練過程,利用包含文本、圖像-文本對和交錯序列的4.4萬億標記數據集。這一訓練過程涉及了7億和340億參數的Chameleon模型,在超過500萬小時的Nvidia A100 80GB GPU資源上執行。
Chameleon的性能
論文發表的結果顯示,Chameleon在文本和多模態任務中均表現出色。在視覺問答(VQA)和圖像標題生成基準測試中,Chameleon-34B達到了最先進的結果,超越了Flamingo、IDEFICS和Llava-1.5等模型。Chameleon在預訓練和微調評估中,使用了顯著較少的上下文訓練範例和更小的模型尺寸,表現出強勁的性能。
在多模態模型在單一模態任務中可能面臨挑戰的情況下,Chameleon在文本基準測試中仍保持競爭力,與Mixtral 8x7B和Gemini-Pro在常識推理和閱讀理解任務上表現一致。
值得注意的是,Chameleon能夠實現先進的混合模態推理和生成,特別是在需要交錯文本和圖像的提示中。人類評估顯示,使用者偏好Chameleon生成的多模態文檔。
未來展望
最近,OpenAI和Google推出了新的多模態模型,儘管細節仍然稀少。如果Meta堅持透明度的原則並發布Chameleon的權重,它將成為私有模型的開放替代方案。
早期融合的方法也為未來的研究鋪平了道路,特別是隨著更多模態的整合。機器人初創公司已經在探索如何將語言模型與機器人控制系統結合。早期融合對機器人基礎模型的潛在影響將是未來值得關注的焦點。
總之,Chameleon是朝實現統一基礎模型邁出的重要步伐,該模型能夠靈活地進行多模態內容的推理和生成。