Googleのプロジェクトアストラ発表:GPT-4と競うAIエージェントが世界的動向を理解するために設計された

本日、マウンテンビューで開催された年次I/O開発者会議において、Googleは人工知能に関連する多くの新発表を行い、未来のための普遍的なAIエージェントを開発する野心的なプロジェクト「アストラ」を発表しました。

会議では、このエージェントの初期バージョンが紹介されました。目標は、環境を認識し理解するマルチモーダルAIアシスタントを作成し、日常のタスクや質問にリアルタイムで対応することです。この概念は、OpenAIのGPT-4oを搭載したChatGPTの最近の発表とも密接に関連しています。

OpenAIがこれから数週間でChatGPT Plusのサブスクライバー向けにGPT-4oを展開する中、Googleはアストラに対してより慎重なアプローチを取っています。Googleはこのプロジェクトの改良を進めていますが、完全に運用可能なAIエージェントの提供時期については明言していません。ただし、アストラのいくつかの機能は、今年後半にGeminiーアシスタントに統合される予定です。

プロジェクトアストラから期待されること

「アストラ」は「Advanced Seeing and Talking Responsive Agent」の略で、Geminiプロ1.5や他のタスク特化型モデルの進歩を基にしています。ユーザーは周囲の微妙なダイナミクスを共有しながら相互作用することが可能です。このアシスタントは、見聞きしたことを理解し、リアルタイムで正確な回答を提供します。

「本当に役立つエージェントになるためには、人間のように複雑でダイナミックな世界を理解し反応できる必要があります」とGoogle DeepMindのCEO、デミス・ハサビス氏は述べています。「それは見聞きしたことを記憶し、文脈を把握し行動を起こす必要があります。また、プロアクティブで教えやすく、自然な会話ができるものでなければなりません。」

デモ動画では、Pixelスマートフォンで動作するプロトタイプのアストラエージェントが、物体を識別し、その構成要素を説明し、ホワイトボード上のコードを解釈しました。エージェントはカメラを通じて近所を認識し、ユーザーが眼鏡を置いた場所を思い出すことさえできました。

Googleアストラの実際の動作

別のデモでは、エージェントがシステムアーキテクチャの改善提案を行い、眼鏡を通じてリアルタイムオーバーレイを追加する機能が強調されました。ハサビス氏は、エージェントが人間に近い反応時間を実現することに大きな工学的課題があることを認めました。彼らは常にビデオフレームをエンコードし、ビデオと音声の入力を効率的なリコールのためにタイムラインに統合します。

「当社の先進的な音声モデルを活用することで、エージェントの音声能力を向上させ、より豊かなイントネーションの範囲を実現しました。この改善により、エージェントは文脈をより良く理解し迅速に応答できるようになります」と述べています。

OpenAIのGPT-4oはすべての入力と出力を統一モデルで処理し、平均応答時間320ミリ秒を達成しています。Googleはアストラの特定の応答時間については発表していませんが、開発が進むにつれてレイテンシが改善されると予想されています。アストラエージェントの感情表現は、OpenAIの能力に比べて明確ではありません。

利用可能性

現在、アストラは日常のタスクを支援するために設計された包括的なAIエージェントに向けたGoogleの初期の取り組みを代表しています。具体的な商品化時期は未定ですが、実世界を理解し相互作用する能力が、Android、iOS、およびWebプラットフォームにわたるGeminiーアプリに統合されることが確認されています。

最初は、Geminiーライブ機能により、チャットボットとの双方向の会話が可能となります。今年後半には、視覚的な機能が更新に組み込まれ、ユーザーはカメラを通じて周囲と交流できるようになります。また、ユーザーは会話中にGeminiーを中断することもでき、OpenAIのChatGPTに似た機能を反映しています。

「このような技術があれば、スマートフォンや眼鏡を通じて専門的なAIアシスタントをそばに持つ未来が容易に想像できます」とハサビス氏は締めくくりました。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles