私たちの研究グループ「Nous Research」は、大規模言語モデル(LLM)の分野での貢献が認められている民間の応用研究グループです。このたび、Hugging Faceで「Nous Hermes 2 Vision」という新しい視覚と言語のモデルを発表しました。このオープンソースモデルは、従来の「OpenHermes-2.5-Mistral-7B」を基盤にしており、ユーザーが画像を入力し、視覚的なコンテンツからテキスト情報を抽出できるようになっています。しかし、リリース直後にユーザーから過剰な幻覚(ハルシネーション)の問題が報告されたため、プロジェクトは「Hermes 2 Vision Alpha」と改名されました。今後、より安定したバージョンが期待されています。
Nous Hermes 2 Vision Alphaの特徴
「Hermes」という名は、ギリシャ神話の神々の使者にちなんでおり、この視覚モデルは、人間のコミュニケーションの複雑さを精密にナビゲートするように設計されています。ユーザーが提供する視覚データをモデルが学習した知識と統合し、詳細で自然な言語での応答を実現します。たとえば、Nousの共同創設者であるTekniumがX上で、モデルがハンバーガーの画像を分析し、その健康への影響を評価しているスクリーンショットを共有しました。
Nous Hermes 2 Visionの主な特長
ChatGPT(GPT-4Vベース)も画像プロンプトに対応していますが、Nous Hermes 2 Visionには二つの主な強化点があります:
1. 軽量アーキテクチャ: 従来の3Bビジョンエンコーダーを使用せず、SigLIP-400Mを採用しています。これにより、モデルの構造が簡素化され、軽量化されると同時に、視覚と言語のタスクにおける性能が向上します。
2. 関数呼び出し機能: このモデルは、関数呼び出しを特徴とするカスタムデータセットで訓練されています。ユーザーはこの機能を利用して、よりインタラクティブで効率的な操作が可能になります。
このように、Nous Hermes 2 Visionは、視覚と言語の融合において新たな可能性を提供します。今後の展開にご期待ください。