新兴开源AI视觉模型挑战ChatGPT:需关注的关键问题

Nous Research是一家私营应用研究机构,因其在大型语言模型(LLM)领域的贡献而受到认可。近日,该公司推出了一款新的视觉语言模型——Nous Hermes 2 Vision,并已在Hugging Face平台上发布。这款开源模型基于之前的OpenHermes-2.5-Mistral-7B,进一步扩展了其功能,允许用户输入图像并从视觉内容中提取文本信息。然而,在发布不久后,用户反映出现了过多的幻觉问题,因此该项目被重新命名为Hermes 2 Vision Alpha。预计更稳定、故障更少的版本将很快推出。

Nous Hermes 2 Vision Alpha

Nous Hermes 2 Vision Alpha以希腊神话中的信使赫尔墨斯命名,旨在精准处理人类交流的复杂性。该模型结合用户提供的视觉数据和学习过的知识,能够生成详细的自然语言回应。例如,Nous的联合创始人Teknium在X平台上分享了一张截图,展示了该模型分析汉堡图像并评估其健康影响的能力。

Nous Hermes 2 Vision的独特特点

虽然基于GPT-4V的ChatGPT也支持图像提示,但Nous Hermes 2 Vision凭借两大主要改进脱颖而出:

1. 轻量级架构:Nous Hermes 2 Vision采用SigLIP-400M,而不是传统的3B视觉编码器。这使得模型架构更为简化,体积更轻,同时在视觉语言任务上的性能得到了提升。

2. 功能调用能力:该模型经过训练,能够使用自定义数据集进行功能调用,用户可以直接利用它进行多种操作。

这一创新模型的推出标志着将视觉理解与自然语言处理相结合的新阶段,预示着更加智能和互动的用户体验。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles