Googleのプロジェクトアストラ発表：GPT-4と競うAIエージェントが世界的動向を理解するために設計された

Home AIニュース Googleのプロジェクトアストラ発表：GPT-4と競うAIエージェントが世界的動向を理解するために設計された

本日、マウンテンビューで開催された年次I/O開発者会議において、Googleは人工知能に関連する多くの新発表を行い、未来のための普遍的なAIエージェントを開発する野心的なプロジェクト「アストラ」を発表しました。

会議では、このエージェントの初期バージョンが紹介されました。目標は、環境を認識し理解するマルチモーダルAIアシスタントを作成し、日常のタスクや質問にリアルタイムで対応することです。この概念は、OpenAIのGPT-4oを搭載したChatGPTの最近の発表とも密接に関連しています。

OpenAIがこれから数週間でChatGPT Plusのサブスクライバー向けにGPT-4oを展開する中、Googleはアストラに対してより慎重なアプローチを取っています。Googleはこのプロジェクトの改良を進めていますが、完全に運用可能なAIエージェントの提供時期については明言していません。ただし、アストラのいくつかの機能は、今年後半にGeminiーアシスタントに統合される予定です。

プロジェクトアストラから期待されること

「アストラ」は「Advanced Seeing and Talking Responsive Agent」の略で、Geminiプロ1.5や他のタスク特化型モデルの進歩を基にしています。ユーザーは周囲の微妙なダイナミクスを共有しながら相互作用することが可能です。このアシスタントは、見聞きしたことを理解し、リアルタイムで正確な回答を提供します。

「本当に役立つエージェントになるためには、人間のように複雑でダイナミックな世界を理解し反応できる必要があります」とGoogle DeepMindのCEO、デミス・ハサビス氏は述べています。「それは見聞きしたことを記憶し、文脈を把握し行動を起こす必要があります。また、プロアクティブで教えやすく、自然な会話ができるものでなければなりません。」

デモ動画では、Pixelスマートフォンで動作するプロトタイプのアストラエージェントが、物体を識別し、その構成要素を説明し、ホワイトボード上のコードを解釈しました。エージェントはカメラを通じて近所を認識し、ユーザーが眼鏡を置いた場所を思い出すことさえできました。

Googleアストラの実際の動作

別のデモでは、エージェントがシステムアーキテクチャの改善提案を行い、眼鏡を通じてリアルタイムオーバーレイを追加する機能が強調されました。ハサビス氏は、エージェントが人間に近い反応時間を実現することに大きな工学的課題があることを認めました。彼らは常にビデオフレームをエンコードし、ビデオと音声の入力を効率的なリコールのためにタイムラインに統合します。

「当社の先進的な音声モデルを活用することで、エージェントの音声能力を向上させ、より豊かなイントネーションの範囲を実現しました。この改善により、エージェントは文脈をより良く理解し迅速に応答できるようになります」と述べています。

OpenAIのGPT-4oはすべての入力と出力を統一モデルで処理し、平均応答時間320ミリ秒を達成しています。Googleはアストラの特定の応答時間については発表していませんが、開発が進むにつれてレイテンシが改善されると予想されています。アストラエージェントの感情表現は、OpenAIの能力に比べて明確ではありません。

利用可能性

現在、アストラは日常のタスクを支援するために設計された包括的なAIエージェントに向けたGoogleの初期の取り組みを代表しています。具体的な商品化時期は未定ですが、実世界を理解し相互作用する能力が、Android、iOS、およびWebプラットフォームにわたるGeminiーアプリに統合されることが確認されています。

最初は、Geminiーライブ機能により、チャットボットとの双方向の会話が可能となります。今年後半には、視覚的な機能が更新に組み込まれ、ユーザーはカメラを通じて周囲と交流できるようになります。また、ユーザーは会話中にGeminiーを中断することもでき、OpenAIのChatGPTに似た機能を反映しています。

「このような技術があれば、スマートフォンや眼鏡を通じて専門的なAIアシスタントをそばに持つ未来が容易に想像できます」とハサビス氏は締めくくりました。

オープンAI共同創設者兼最高科学者イリヤ・サツケバー、同社退職を発表

注意のオフロードが大規模なLLM推論コストを削減する方法

Most people like

Certiverse

27.6K

効率的で手頃な価格の試験作成と管理を目的とした革新的なオンラインプラットフォーム。

オンラインプラットフォーム Other

GrapixAi

687.7K

今日のデジタル環境において、データ処理能力が重要な中、GPUレンタルサービスは企業や個人にとって画期的なソリューションとして登場しています。高性能なグラフィックス処理ユニット（GPU）を活用することで、ユーザーはハードウェア購入の高額な初期費用なしに、計算リソースを簡単にスケールアップできます。ゲーマー、開発者、データサイエンティストの方々にとって、GPUレンタルはそれぞれのニーズに合わせた柔軟性と効率を提供します。GPUサービスがプロジェクトをどのように強化し、レンダリング時間を短縮し、革新を推進するために必要な計算能力を提供するかを探求してみてください。

GPUレンタル Other

Gemma

3.2M

オープンソースの言語モデルは、人工知能とのインタラクションを革命的に変え、開発者や研究者に強力なツールを提供しています。これらのモデルはコラボレーションとカスタマイズを可能にし、ユーザーが特定のニーズに合わせてAI技術を洗練させ適応させる力を与えます。多くのオープンソースの選択肢が存在する中で、その潜在能力と応用を理解することは、AIの利点を活用したい人にとって重要です。これらの革新的なモデルがどのようにあなたのプロジェクトを強化し、さまざまな分野での進展を促進できるかを探求しましょう。

ジェンマ Large Language Models (LLMs)

MyScale

190.4K

次世代AIデータベースを紹介します。このデータベースは、ベクトル検索機能と高度なSQL分析をシームレスに統合しています。この革新的なプラットフォームはデータ管理を革新し、ユーザーが深い洞察を引き出し、意思決定プロセスを向上させることを可能にします。AIの力を活用して、データ分析体験を新たな高みへと引き上げましょう。

ベクトル検索 AI Knowledge Base

Find AI tools in YBX