新興的開放源碼AI視覺模型挑戰ChatGPT：需要注意的關鍵問題

Home AI新聞新興的開放源碼AI視覺模型挑戰ChatGPT：需要注意的關鍵問題

Updated on 十二月 4 2023

Nous Research，一個因其在大型語言模型（LLM）領域所做貢獻而備受認可的私營應用研究團隊，已推出一款名為Nous Hermes 2 Vision的新型視覺-語言模型，目前可在Hugging Face上獲取。這款開源模型以早期的OpenHermes-2.5-Mistral-7B為基礎，擴展了其功能，允許用戶輸入圖像並從視覺內容中提取文本信息。然而，在推出不久後，用戶報告出現過度幻覺問題，促使公司將該項目重新命名為Hermes 2 Vision Alpha。預計將很快推出一個更穩定、故障更少的版本。

Nous Hermes 2 Vision Alpha

該視覺模型以希臘神話中的信使赫爾墨斯命名，旨在以驚人的精確度應對人類交流的複雜性。它結合用戶提供的視覺數據與其學習的知識，從而能夠生成詳細、自然的語言回應。例如，Nous的共同創始人，也是在X上以Teknium著稱，分享了一個截圖，展示該模型分析漢堡圖像及其健康影響的能力。

Nous Hermes 2 Vision的獨特特徵

雖然基於GPT-4V的ChatGPT也支持圖像提示，但Nous Hermes 2 Vision有兩個主要提升使其與眾不同：

1. 輕量化架構：Nous Hermes 2 Vision採用SigLIP-400M，而非傳統的3B視覺編碼器。這不僅簡化了模型架構，使其更輕便，還提高了其在視覺-語言任務上的性能。

2. 功能調用能力：該模型已在一個包含功能調用的自定義數據集上進行訓練，使用戶能夠使用一系列新功能。

開啟材料科學的未來：探索人工智慧驅動發現的利弊

李飛飛與女性在人工智慧領域的影響