Microsoft、Phi-3を一般公開し、マルチモーダル小型言語モデルPhi-3-Visionのプレビューを発表

Microsoftは、Phi-3軽量モデルファミリーへの開発者のアクセスを拡大しました。初の発表から約1ヶ月後のことです。このファミリーには、Phi-3-medium、Phi-3-small、Phi-3-miniが含まれ、後者は現在Azure AIに統合されています。さらに、マルチモーダルバリアントであるPhi-3-visionも新たに発表され、4.2億パラメータを特徴としています。

Phi-3の概要

Microsoftリサーチによって開発されたPhi-3は、3億パラメータを持つ堅牢な言語モデルであり、より大きなモデルに匹敵する強力な推論機能を低コストで提供します。これは、Phi-1、Phi-1.5、Phi-2に続く、Microsoftのコンパクト言語モデルの第四世代です。

AIエージェントと小型モデル

ローカルまたはデバイス上で動作するAIソリューションへの需要が高まる中、開発者は効率的で小型のモデルを模索しています。MicrosoftのPhi-3ファミリーには、Phi-3-mini(38億パラメータ)、Phi-3-small(70億パラメータ)、Phi-3-medium(140億パラメータ)の3つのオプションがあります。同社によると、Phi-3はOpenAIのGPT-3.5と同等の性能を軽量なフォーマットで発揮します。

Phi-3のリリースは、PCにおけるAI機能の導入とも重なります。開発者は、これらのバリアントを活用して、ノートPC、モバイルデバイス、ウェアラブルデバイス全体でAI機能を強化できます。

Phi-3-visionについての洞察

Phi-3モデルに加え、MicrosoftはPhi-3-visionも発表しました。このモデルは、チャート、グラフ、表を分析するなど、一般的な視覚的推論タスクをサポートします。4.2億パラメータを持つPhi-3-visionは、データビジュアライゼーションや具体的な画像に関する質問をユーザーから受け付けることができます。

興味深いことに、Googleも最近の開発者会議で、3億パラメータを持つ軽量マルチモーダルモデルPaliGemmaを発表しました。これはMicrosoftのモデルよりもわずかに少ないパラメータ数です。

AIが多様な入力タイプを処理する能力は、開発者にとって重要です。軽量なアーキテクチャの効率性と大規模な言語モデルの性能を兼ね備えたモデルは、その採用を大いに促進するでしょう。

現在、Phi-3-visionはプレビュー段階にあり、Microsoftはその一般公開についてまだ発表していません。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles