新興的開放源碼AI視覺模型挑戰ChatGPT:需要注意的關鍵問題

Nous Research,一個因其在大型語言模型(LLM)領域所做貢獻而備受認可的私營應用研究團隊,已推出一款名為Nous Hermes 2 Vision的新型視覺-語言模型,目前可在Hugging Face上獲取。這款開源模型以早期的OpenHermes-2.5-Mistral-7B為基礎,擴展了其功能,允許用戶輸入圖像並從視覺內容中提取文本信息。然而,在推出不久後,用戶報告出現過度幻覺問題,促使公司將該項目重新命名為Hermes 2 Vision Alpha。預計將很快推出一個更穩定、故障更少的版本。

Nous Hermes 2 Vision Alpha

該視覺模型以希臘神話中的信使赫爾墨斯命名,旨在以驚人的精確度應對人類交流的複雜性。它結合用戶提供的視覺數據與其學習的知識,從而能夠生成詳細、自然的語言回應。例如,Nous的共同創始人,也是在X上以Teknium著稱,分享了一個截圖,展示該模型分析漢堡圖像及其健康影響的能力。

Nous Hermes 2 Vision的獨特特徵

雖然基於GPT-4V的ChatGPT也支持圖像提示,但Nous Hermes 2 Vision有兩個主要提升使其與眾不同:

1. 輕量化架構:Nous Hermes 2 Vision採用SigLIP-400M,而非傳統的3B視覺編碼器。這不僅簡化了模型架構,使其更輕便,還提高了其在視覺-語言任務上的性能。

2. 功能調用能力:該模型已在一個包含功能調用的自定義數據集上進行訓練,使用戶能夠使用一系列新功能。

Most people like

Find AI tools in YBX