Google Gemini 1.5 Pro パブリックプレビュー開始:新しい音声認識機能の探求

最近のGoogle Nextイベントで、GoogleはAIモデル「Gemini 1.5 Pro」の重要なアップデートを発表しました。この新モデルは、これまでにない音声処理能力を備え、ユーザーがアップロードした音声ファイルを直接解釈・分析することが可能になりました。これにより、収益報告会や動画の音声から貴重な情報をテキスト形式に変換することなく抽出できるようになりました。

このアップデートの大きなポイントは、Gemini 1.5 Proが従来最強モデルのGemini Ultraを性能で上回ったことです。Googleは、このモデルが複雑なコマンドを微調整なしで理解できることを示しており、AI技術の進歩を意味しています。

ただし、Gemini 1.5 Proへのアクセスは、Vertex AIやAI Studioの機能を持つユーザーに限定されています。多くのユーザーはGeminiの言語モデルをGeminiチャットボットを通じて利用し、Gemini Ultraはより高度なGeminiチャットボットに対応しています。Gemini Ultraは堅牢ですが、Gemini 1.5 Proの処理速度には及びません。

さらに、Googleはもう一つの大型AIモデル「Imagen 2」のアップデートも発表しました。この高度なテキストから画像を生成するシステムは、Geminiの画像処理能力を向上させ、ユーザーが画像内の要素を追加または削除できる機能を提供します。加えて、Googleは画像の出所を示す目に見えないデジタルウォーターマーク「SynthID」を新たに導入しました。

そして、Googleは、AI応答をGoogle検索と統合する新しい手法を発表しました。これにより、大型言語モデルが実時間の情報に基づいた回答を提供できるようになります。つまり、過去の情報に依存するのではなく、現在のデータを提供することが可能になるのです。ただし、2024年のアメリカ合衆国大統領選挙に関する質問にはGeminiが応答しないことが決定されており、機密情報の取り扱いに対する責任ある姿勢が示されています。

最後に、Geminiは歴史的人物の画像生成において不正確な結果を出したことから批判を受けており、AI技術の進歩があっても歴史や現実のデータを扱う際には慎重さが求められることを私たちに思い出させます。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles