Googleは、最新の革新であるGeminiモデルを発表し、企業や開発者にその強力な大規模言語機能を利用できるAPIを提供します。Geminiは、Ultra、Pro、Nanoの3つのサイズで展開されており、本日から開発者はGoogleの無料のウェブベースの開発ツールAI Studio(旧Makersuite)を通じてGemini Pro APIにアクセスできます。また、企業はGoogle CloudのVertex AIプラットフォームを通じて統合し、迅速にアプリケーションを開発できます。
Googleは、今後数週間以内にユーザーのフィードバックを基にGemini Proをさらに洗練させる計画を発表しました。「開発者や企業がGeminiを用いてどのような革新的なアプリケーションを創出するか、非常に楽しみです」と同社は最近のブログで述べています。現在、Gemini Proは、ChatGPTに対抗するために設計されたGoogleの会話AI、Bardを支えています。初期バージョンの重要な機能の一つは、32,000トークンのコンテキストウィンドウで、これにより約5,333語を処理できます。対照的に、OpenAIのGPT-4 Turboは最大128,000トークンに対応していますが、Gemini Proの将来のバージョンではこの能力が大幅に拡張される見込みです。
Gemini Proの機能には、38言語のサポート、関数呼び出し、埋め込み、セマンティックリトリーバル、およびカスタム知識の基盤があります。現時点では、APIはテキストの入力と出力のみに対応していますが、テキストとビジュアルの両方の入力を受け入れるマルチモーダルエンドポイント「Gemini Pro Vision」も導入されており、画像や動画に基づいたテキスト出力を生成します。
現在、Gemini Pro APIの使用は無料ですが、1分あたり最大60クエリに制限されています。まもなく導入予定の従量課金制バージョンは、少ない制限とGoogleが「競争力のある価格」と説明する料金構造を提供します。Gemini Proの価格は、1000文字あたり$0.00025、画像あたり$0.0025、出力は1000文字あたり$0.0005に設定されています。無料バージョンの入力と出力は、Googleがサービスを強化するために使用され、支払いバージョンのデータはプライバシーが保たれます。
Gemini Proに加えて、GoogleはVertexプラットフォームを拡張し、DeepMindからの最新AI画像生成モデルであるImagen 2を含む新しいモデルを追加しています。この高度なテキストから画像への拡散モデルは、高品質な画像やリアルなロゴを生成できます。また、多言語のテキストも描写できます。
もう一つの重要な追加は、医療分野向けに特化して微調整された基盤モデルのセットであるMedLMです。Med-PaLM 2モデルの上に構築されており、医療記録の作成や医療関連の質問に対する回答などのアプリケーション向けに設計されています。現在、このモデルは米国のVertexユーザーのみが利用可能で、今後数週間でその利用可能性を拡大する予定です。Googleは、近いうちにGeminiベースのモデルをMedLMスイートに統合することも目指しています。
最後に、開発者向けのDuet AIツールが一般提供開始されました。このコラボレーションツールは、開発者がアプリケーション作成プロセスを効率化するのを支援し、コード生成やチャット支援のためにさまざまなGoogle Cloudインターフェースに統合できます。今後数週間以内に、Duet AIにGeminiが統合され、統合されたSecOpsプラットフォーム内で防御者間のコラボレーションが強化されます。
これらの革新的なツールを通じて、Googleは業界全体で生産性、創造性、セキュリティを向上させるAIによるアプリケーションの新しい時代を切り拓こうとしています。