MetaのLlama 3.2登場:OpenAIとAnthropicに挑む新たな競争者

MetaのLlama 3.2:マルチモーダルAIの新時代

本日、Meta Connectで、Metaは画像とテキストの理解を統合した初の主要なビジョンモデル「Llama 3.2」を発表しました。

Llama 3.2は、11Bおよび90Bパラメータの中規模モデルと、モバイルおよびエッジデバイスに最適化された軽量なテキスト専用モデル(1Bおよび3Bパラメータ)を搭載しています。

MetaのCEO、マーク・ザッカーバーグは基調講演の中で、「これは私たちの初のオープンソースマルチモーダルモデルです。視覚的理解を必要とする幅広いアプリケーションを可能にします」と語りました。

Llama 3.2は、前バージョン同様に128,000トークンのコンテキスト長を提供し、数百ページ相当の大量のテキストを入力できます。一般的に、パラメータ数が増加すると、モデルの精度と複雑なタスクの処理能力が向上します。

また、MetaはLlamaスタック配布を発表し、開発者はこれらのモデルをオンプレミス、デバイス上、クラウド、単一ノード設定など多様な環境で活用できます。

ザッカーバーグは「オープンソースは、最もコスト効率が良く、カスタマイズ可能で信頼性の高いオプションです。業界の転換点に達しました。それはAIのLinuxのような標準になりつつあります」と述べました。

ClaudeやGPT-4oと競争

Llama 3.1の発表からわずか2ヶ月で、Metaはその能力が10倍に成長したと報告しています。

ザッカーバーグは「Llamaは急速に進化しています。機能の幅が増加しています」と語りました。

Llama 3.2の最大モデル(11Bおよび90B)は、画像の活用をサポートし、グラフの解釈、画像キャプションの生成、自然言語からの物体認識が可能です。たとえば、ユーザーが企業のピーク販売月を尋ねると、モデルは利用可能なグラフを使って答えを引き出します。また、より大きなモデルは画像から情報を抽出して詳細なキャプションを作成できます。

軽量モデルは、最近のコミュニケーションを要約したり、フォローアップ会議のカレンダー招待を管理するなど、個別アプリの開発を容易にします。

Metaは、Llama 3.2がAnthropicのClaude 3 HaikuやOpenAIのGPT-4o-miniと競争できるレベルにあり、特に画像認識や視覚理解のタスクにおいて、GemmaやPhi 3.5-miniよりも優れたパフォーマンスを発揮していると主張しています。

Llama 3.2のモデルは、llama.com、Hugging Face、Metaのパートナープラットフォームでダウンロード可能です。

ビジネスAIの拡充と消費者向け機能

MetaはビジネスAIの強化も進めており、企業がWhatsAppやMessengerでクリックしてメッセージを送る広告を活用できるようになります。これにより、一般的な問い合わせに応答し、商品詳細を説明し、購入を完了させるエージェントを開発します。

1百万人以上の広告主がMetaの生成AIツールを活用し、過去1ヶ月で1500万件の広告が作成されました。平均して、Metaの生成AIを使用した広告キャンペーンは、クリック率が11%、コンバージョン率が7.6%向上しています。

消費者向けには、Meta AIがビジュアルに「声」を持つようになりました。著名人の声の中には、ジュディ・デンチ、ジョン・シナ、キーガン=マイケル・キー、クリステン・ベル、アクワフィナが含まれています。

ザッカーバーグは「テキストよりも声でAIと対話する方が自然になると思います。かなり優れています」と述べました。

このモデルは、WhatsApp、Messenger、Facebook、Instagramなどのプラットフォームでの音声やテキストコマンドに応答し、写真を共有すると編集も可能です。さらに、Metaは新しい翻訳、ビデオ吹き替え、リップシンクツールの実験を行っています。

ザッカーバーグは、Meta AIが世界中で最も広く使われるアシスタントになると強調し、「おそらくすでにそうなっている」と述べました。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles