Hugging Faceは2023年にデープマインドが開発した技術を活用し、Ideficsという視覚言語モデルを発表しました。そのアップグレード版であるIdefics2がHugging Faceで利用可能になり、パラメータサイズが小さく、オープンライセンスが採用され、強化された光学式文字認識(OCR)機能を搭載しています。
Ideficsは「Flamingo方式のインターリーブ交差アテンションを持つ画像認識デコーダー」を意味し、テキストと画像の両方のプロンプトを処理できる多目的なモデルです。以前のIdeficsが80億のパラメータを誇っていたのに対し、Idefics2は8億に削減され、DeepSeek-VLやLLaVA-NeXT-Mistral-7Bなどのモデルと比較可能です。
Idefics2の主な改良点には、最大980 x 980ピクセルのネイティブ解像度をサポートし、固定サイズの正方形に合わせるためのリサイズが不要な洗練された画像処理機能があります。これは従来のコンピュータビジョンモデルの一般的な制限を克服しています。
さらに、OCR機能も強化され、画像や文書内のテキスト転写から得られたデータが取り入れられています。Hugging Faceチームは、チャートや図、文書に関する質問に対するIdefics2の応答能力を向上させました。
また、Idefics2は前モデルのゲート付きクロスアテンションメカニズムを廃止し、よりシンプルなアーキテクチャを採用しています。Hugging Faceによると、「画像はビジョンエンコーダーに入力され、次に学習されたパーシーバープールと多層パーセプトロンモダリティープロジェクションを経て、プールされたシーケンスがテキストエンベディングと結合され、画像とテキストのインターリーブシーケンスが生成されます」とのことです。
Idefics2のトレーニングには、Mistral-7B-v0.1やsiglip-so400m-patch14-384などの公開データセットが使用され、ウェブ文書、画像キャプションのペア、OCRデータ、画像からコードへのリソースなども追加されています。
Idefics2のリリースは、RekaのCoreモデル、xAIのGrok-1.5V、GoogleのImagen 2を含むAI分野におけるマルチモーダルモデルの急増の中で行われました。