新たなオープンソースAIビジョンモデルがChatGPTに挑む：考慮すべき重要課題

Home AIニュース新たなオープンソースAIビジョンモデルがChatGPTに挑む：考慮すべき重要課題

私たちの研究グループ「Nous Research」は、大規模言語モデル（LLM）の分野での貢献が認められている民間の応用研究グループです。このたび、Hugging Faceで「Nous Hermes 2 Vision」という新しい視覚と言語のモデルを発表しました。このオープンソースモデルは、従来の「OpenHermes-2.5-Mistral-7B」を基盤にしており、ユーザーが画像を入力し、視覚的なコンテンツからテキスト情報を抽出できるようになっています。しかし、リリース直後にユーザーから過剰な幻覚（ハルシネーション）の問題が報告されたため、プロジェクトは「Hermes 2 Vision Alpha」と改名されました。今後、より安定したバージョンが期待されています。

Nous Hermes 2 Vision Alphaの特徴

「Hermes」という名は、ギリシャ神話の神々の使者にちなんでおり、この視覚モデルは、人間のコミュニケーションの複雑さを精密にナビゲートするように設計されています。ユーザーが提供する視覚データをモデルが学習した知識と統合し、詳細で自然な言語での応答を実現します。たとえば、Nousの共同創設者であるTekniumがX上で、モデルがハンバーガーの画像を分析し、その健康への影響を評価しているスクリーンショットを共有しました。

Nous Hermes 2 Visionの主な特長

ChatGPT（GPT-4Vベース）も画像プロンプトに対応していますが、Nous Hermes 2 Visionには二つの主な強化点があります：

1. 軽量アーキテクチャ: 従来の3Bビジョンエンコーダーを使用せず、SigLIP-400Mを採用しています。これにより、モデルの構造が簡素化され、軽量化されると同時に、視覚と言語のタスクにおける性能が向上します。

2. 関数呼び出し機能: このモデルは、関数呼び出しを特徴とするカスタムデータセットで訓練されています。ユーザーはこの機能を利用して、よりインタラクティブで効率的な操作が可能になります。

このように、Nous Hermes 2 Visionは、視覚と言語の融合において新たな可能性を提供します。今後の展開にご期待ください。

材料科学の未来を切り開く：AI主導の発見の長所と短所を探る

フェイ・フェイ・リーと女性のAIへの影響 | AIの最前線

Most people like

RevComm

45.6K

先進的な会話分析機能を搭載したAI駆動のIP電話で、コミュニケーションを革新しましょう。最先端の技術を活用して、ビジネスの対話を実用的なインサイトに変換し、業務の効率を向上させます。

AI駆動の AI CRM Assistant

aomni

22.6K

AI搭載のツールキットで販売力を引き出しましょう。販売プロセスを合理化し、効率を高め、パフォーマンスを向上させる最先端技術を体験してください。経験豊富なプロフェッショナルでも、初心者でも、このツールキットは効果的に契約を締結し、収益成長を促進するための賢いソリューションを提供します。今日、私たちの高度なAI機能で販売の未来を探求しましょう。

AI AI Content Generator

Solidroad

26.1K

営業コール専用に設計されたAI会話シミュレーターで、販売戦略を向上させましょう。この革新的なツールは、営業の専門家がスキルを練習し、磨くことを可能にし、すべてのやり取りが魅力的かつ説得力のあるものになります。営業へのアプローチを変革し、最先端のAI技術を活用した効果的なコミュニケーションの影響を実感してください。

AI Sales Assistant

Creatie

132.5K

創造性の解放：AIの力でデザインプロセスを変革する。

AIデザインツール Design Assistant

Find AI tools in YBX