Nous Research, 누구 연구,는 대형 언어 모델(LLM) 분야에서 인정받는 민간 응용 연구 그룹으로, 새로운 비전-언어 모델인 Nous Hermes 2 Vision을 Hugging Face 플랫폼에 공개했습니다. 이 오픈 소스 모델은 이전의 OpenHermes-2.5-Mistral-7B를 기반으로 하여 사용자가 이미지를 입력하고 시각적 콘텐츠에서 텍스트 정보를 추출할 수 있는 기능을 확장했습니다. 하지만 출시 직후 사용자는 과도한 환각 문제를 보고하여 이 프로젝트는 Hermes 2 Vision Alpha로 이름이 변경되었습니다. 더 안정적인 버전이 곧 출시될 예정입니다.
Nous Hermes 2 Vision Alpha
그리스 신들의 전령 헤르메스의 이름을 딴 이 비전 모델은 인간 담론의 복잡성을 놀라운 정밀도로 탐색하도록 설계되었습니다. 사용자가 제공한 시각적 데이터와 학습된 지식을 통합하여 상세하고 자연스러운 언어 응답을 제공합니다. 예를 들어, Nous의 공동 창립자인 Teknium이 X에서 모델이 햄버거 이미지를 분석하여 건강 영향을 평가하는 스크린샷을 공유했습니다.
Nous Hermes 2 Vision의 독특한 특징
ChatGPT가 GPT-4V를 기반으로 이미지 프롬프트를 지원하는 반면, Nous Hermes 2 Vision은 두 가지 주요 개선 사항으로 차별화됩니다:
1. 경량 아키텍처: Nous Hermes 2 Vision은 전통적인 3B 비전 인코더 대신 SigLIP-400M을 사용하여 모델 아키텍처를 단순화하고 경량화했습니다. 이를 통해 비전-언어 작업의 성능도 향상되었습니다.
2. 함수 호출 기능: 이 모델은 함수 호출이 포함된 사용자 정의 데이터셋으로 학습되어, 사용자가 이를 활용할 수 있습니다.