Metaの基礎AI研究チーム(FAIR)は、新しいAIモデルやツールを発表しました。これらは音声生成、テキストからビジョンへの変換能力、そして透かし技術に焦点を当てています。
「私たちの初期研究を公開することで、革新を促し、責任あるAIの進展を目指しています」と同社はプレスリリースで述べています。
音声生成モデル:JASCOと透かしツール
Metaは、JASCO(Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)を紹介します。このモデルは、ユーザーが和音やビートなどの要素を入力し、最終出力を洗練させることで音声生成を向上させます。FAIRの研究によれば、JASCOを使用すると、ユーザーは生成された音声の特性(和音、ドラム、メロディなど)をテキストコマンドを通じて操作でき、望ましい音を実現できます。
JASCOの推論コードはMITライセンスのもと、AudioCraft AIオーディオモデルライブラリの一部として公開される予定で、事前トレーニング済みモデルは非商用のクリエイティブ・コモンズライセンスで提供されます。また、MetaはAI生成音声を識別するための革新的なツール「AudioSeal」を発表します。このツールは、AIによって生成されたスピーチに透かしを付けることで、この種のコンテンツをより効果的に識別します。
Metaは「AudioSealは、AI生成音声特定のために特化された初のオーディオ透かし技術で、より長い音声ファイル内のAI作成セグメントを特定することができます」と述べています。このツールは検出効率を向上させ、従来の方法に比べて485倍の速度で検出できると報告されています。他のモデルとは異なり、AudioSealは商用ライセンスの下で提供されます。
カメレオンモデルのリリース
FAIRは、マルチモーダルテキストモデル「カメレオン」の2つのバージョンを研究専用ライセンスのもとでリリースする計画も発表しています。カメレオン7Bと34Bモデルは、画像キャプショニングなど、視覚的およびテキストの理解が必要なタスクのために設計されています。しかし、Metaは現時点でカメレオンの画像生成モデルを利用可能にしないと発表しており、テキスト関連の機能に限定されることになります。
さらに、研究者は、複数の未来の単語を同時にトレーニングするマルチトークン予測法にアクセスできるようになります。この機能は、非商用かつ研究専用ライセンスのもとでのみ利用可能です。