2024年モバイル・ワールド・コングレス(MWC)において、QualcommはSnapdragonSiriーズを活用したAI機能のポートフォリオを拡大しています。すでに、Snapdragon 8 Gen 3フラッグシップ向けに音声操作によるメディア編集、Stable Diffusionを用いたオンデバイスの画像生成、Metaの大規模言語モデルを活用した高度なバーチャルアシスタントなど、画期的なAI機能を発表しています。
本日、QualcommはこれらのAI機能の強化を発表しました。特に注目すべきは、スマートフォン専用に設計された新しい「大規模言語・ビジョンアシスタント(LLaVa)」です。この革新的なツールは、ChatGPTのようなチャットボットとして機能しながら、Google Lensの機能も統合しています。これにより、Qualcommのソリューションはテキスト入力と画像の両方を処理できるようになります。
例えば、シャルキュトリーボードの写真をアップロードして、その内容を尋ねることができます。7億以上のパラメータを処理する大規模マルチモーダルモデル(LMM)に基づくこのAIアシスタントは、画像に含まれる果物やチーズ、肉、ナッツを特定します。さらに、フォローアップの質問にも対応可能で、自然な会話の流れが実現します。ChatGPTなどもマルチモーダル機能を追加していますが、これらはクラウドベースのアーキテクチャに依存しており、データ処理にはリモートサーバーを使用しています。一方、Qualcommのアプローチはオンデバイス処理に焦点を当てており、迅速な応答とプライバシーの向上を図っています。Qualcommは、「このLMMはデバイス上で応答性の高いトークンレートで動作し、プライバシー、信頼性、パーソナライズ、コスト効率を高めます」と強調しています。なお、LLaVaベースのバーチャルアシスタントがスタンドアロンアプリとして発売されるのか、使用料が発生するのかは現時点では未確認です。
Qualcommからの次の重要な発表は、画像生成と操作のクリエイティブな側面に関するものです。最近、QualcommはStable Diffusionテクノロジーを使用したスマートフォンでの世界最速のテキストから画像への生成をデモンストレーションしました。本日、LoRA(Low-Rank Adaptation)を利用した画像生成のプレビューが提供されました。
LoRAは、Microsoftによって開発された新しい技術で、従来の生成AIツール(DALL·Eなど)とは異なるアプローチを提供します。AIモデルのトレーニングは高コスト・時間がかかる上、ハードウェアの要求が厳しいものとなることが多いですが、LoRAはモデルの重さを大幅に軽減し、特定のセグメントに集中し、トレーニングプロセス中のパラメータ数を制限することでこの課題に対処します。これにより、メモリ要件が減少し、動作が迅速化され、テキストから画像へのモデルの適応が大幅に効率化されます。
LoRAの蒸留メソッドはStable Diffusionモデルに効果的に組み込まれており、テキストプロンプトから画像生成を行います。その効率性と適応の容易さにより、LoRAはスマートフォンに適していると考えられています。Qualcommはその潜在能力を信じ、競合のMediaTekも自社のDimensity 9300チップ上で生成AI機能のためにこのアプローチを採用しています。
MWC 2024では、QualcommはさまざまなAI機能も展示しており、その一部はすでにSamsung Galaxy S24 Ultraで利用可能です。これらの機能には、生成AIを使用して画像のキャンバスを拡張することや、AIを駆使した動画生成などがあります。これらの先進技術がスマートフォンにどのように実装されるのか、非常に興味深いところです。