Googleが最新の会話型AIシステム「Gemini 1.5」を発表しました。この新バージョンは、効率性、性能、長文理解能力の大幅な向上を実現しています。
Google AIの責任者、デミス・ハサビス氏は、ブログでGemini 1.5 Proの重要なアーキテクチャの改善について説明し、同モデルがより少ない計算資源で、会社の最大モデルであるGemini 1.0 Ultraと同等の性能を発揮できることを強調しました。Gemini 1.0 Ultraは先週導入されたばかりです。
最も注目すべき進展は、百万トークンのコンテキストウィンドウの導入です。これは長文の理解において画期的な進歩です。標準のGeminiモデルは128,000トークンのコンテキスト内でプロンプトを分析できますが、百万トークンのアップグレードにより、Gemini 1.5は応答を生成する前に、より大量の連続した情報を処理することができます。
この百万トークンのコンテキストにより、長文での推論能力が強化されます。GoogleのCEO、サンダー・ピチャイ氏は、Gemini 1.5がアポロ11号のミッション全記録を要約したり、バスター・キートンが出演する44分の無声映画を分析したりできる能力を示しました。
ハサビス氏は、拡張されたコンテキストにより、Gemini 1.5が膨大なコンテンツをシームレスに分析、分類、要約できることを説明しました。初期の結果では、拡張コンテキストによっても性能が優れていることが示されています。
現在、百万トークンバージョンの一般公開日は未定です。Googleは、特定の開発者や企業ユーザー向けにVertex AIプラットフォームを通じた限定プレビューを提供しています。
このリリースは、Googleが会話型AIを「Bard」から「Gemini」に改名し、Ultra 1.0モデルを利用した有料の「Gemini Advanced」 tierを導入した直後のものです。GeminiはOpenAIのChatGPT Plusに対抗する位置づけです。
ハサビス氏は、Gemini 1.5の効率性向上により、Googleチームが「より迅速に、より高度なGeminiのバージョンを開発、訓練、提供できる」と述べました。ピチャイ氏は、GoogleがAIの原則に従ってGeminiを責任を持って開発することへのコミットメントを強調しました。Gemini 1.5に対しては、コンテンツの安全性と多様性に焦点を当てた倫理的および安全性テストを実施しています。
会話型AIの進歩は、昨年のChatGPTの発表以来急速に加速しています。専門家は、トレーニングコストの削減やGoogleの疎結合型専門家混合アーキテクチャなどの革新が、新しいイテレーションの迅速な開発を可能にしていると指摘しています。
Gemini 1.5により、GoogleはAI分野でのリーダーシップを揺るぎないものにすることを目指しています。重要な問いは、これら高度な長文推論機能がいつGoogleの消費者向け製品に統合されるかということです。