MetaのOKロボット、未訓練環境でゼロショットピックアンドドロップ機能を達成

Home AIニュース MetaのOKロボット、未訓練環境でゼロショットピックアンドドロップ機能を達成

最近のビジョンと言語のモデル（VLM）の進展により、自然言語のクエリを視覚シーン内のオブジェクトに合わせることが可能になっています。研究者たちは、これらのモデルをロボティクスシステムに統合する方法を模索していますが、ロボットはしばしば能力の一般化に苦しんでいます。

Meta AIとニューヨーク大学の研究者による画期的な論文では、OK-Robotと呼ばれるオープンナレッジベースのフレームワークが紹介されています。この革新的なシステムは、追加訓練なしで、未知の環境でのピックアンドドロップ操作を実行するために、事前に訓練された機械学習（ML）モデルを組み合わせています。

現在のロボティクスシステムの課題

ほとんどのロボットシステムは、過去に遭遇した環境向けに設計されているため、新しい設定—特に家庭のような非構造的な空間—への適応が制限されています。VLMが言語プロンプトと視覚オブジェクトを結びつける能力が向上し、ロボットのナビゲーションや把握能力も改善されているものの、これらの技術を統合することは未だに最適な性能を発揮できていません。

研究者たちは、「この問題を前進させるには、VLMとロボティクスの基礎を統合しつつ、VLMおよびロボティクスコミュニティからの新しいモデルを柔軟に取り入れられる、注意深く洗練されたフレームワークが必要です」と述べています。

OK-Robotの概要

OK-Robotは、最先端のVLMを頑強なロボティクスメカニズムと統合し、未知の環境でピックアンドドロップのタスクを実行します。広範な公開データセットで訓練されたモデルを利用しています。

このフレームワークは、オープンボキャブラリーのオブジェクトナビゲーションモジュール、RGB-D把握モジュール、およびドロップヒューリスティックスystemの3つの主要なサブシステムで構成されています。新しい空間に入る際、OK-Robotは手動スキャンを必要とし、iPhoneアプリを使ってRGB-D画像の系列を取得することで簡単に行えます。これらの画像とカメラの位置情報が組み合わさり、3D環境マップが作成されます。

各画像はビジョントランスフォーマ（ViT）モデルを用いて処理され、オブジェクト情報が抽出されます。このデータは環境コンテキストとともにセマンティックオブジェクトメモリモジュールに供給され、自然言語クエリに応じたオブジェクトの取得が可能になります。メモリは音声プロンプトの埋め込みを計算し、最も近いセマンティック表現と一致させます。ナビゲーションアルゴリズムは、オブジェクトへの最適な経路を描画し、ロボットが安全にオブジェクトを把握できるスペースを確保します。

最後に、ロボットはRGB-Dカメラを使用し、オブジェクトセグメンテーションモデルと事前訓練された把握モデルを駆使してアイテムを取り上げます。ドロップオフ地点へのナビゲーションにも同様の手法が適用されます。このシステムにより、ロボットはさまざまなオブジェクトタイプに対して最も適切な把持を決定し、平坦ではない目的地でも対処できます。「全く新しい環境に入って自律的な操作を始めるまで、我々のシステムは最初のピックアンドドロップタスクを完了するのに平均して10分未満です」と研究者たちは報告しています。

テストと結果

研究者たちは10軒の家庭でOK-Robotを評価し、171件のピックアンドドロップ実験を行いました。OK-Robotは58%の成功率で完全な操作を完了し、これらの環境に対しては明示的に訓練されていないゼロショット能力を示しました。入力クエリを改善し、スペースを整理し、対立するオブジェクトを最小限にすることで、成功率は82%を超えることができます。

しかし、OK-Robotにはいくつかの制限もあります。自然言語プロンプトと正しいオブジェクトの間にミスアラインが生じることがあり、一部の把持が難しい場合やハードウェアの制約も存在します。さらに、オブジェクトメモリモジュールはスキャン後に静的な状態になるため、ロボットがオブジェクトの位置や可用性の変化に適応することはできません。

これらの課題にもかかわらず、OK-Robotプロジェクトは重要な洞察を提供します。第一に、現在のオープンボキャブラリーVLMは、多様な実世界のオブジェクトを特定し、それにゼロショット学習でナビゲートする能力を持つことを示しています。さらに、大規模なデータセットで事前訓練された専門的なロボットモデルが、未知の環境でオープンボキャブラリーの把持をシームレスに進めることを確認しています。最後に、モデルを組み合わせてさらなる訓練なしでゼロショットタスクを達成する可能性に光を当てており、この新興分野のさらなる進展への道を開いています。

セムロン、先進的な3D統合AIチップ技術のために790万ドルの資金調達を実現

10 Key Reasons to Prioritize Container Security in Software Supply Chain Protection

Most people like

Craftura AI

29K

私たちの高度なプラットフォームを通じて、Stable Diffusion技術によるAI画像作成の力を発見してください。アーティストや革新者向けに設計された最先端のツールを使って、驚くべきビジュアルを effortlessly 生成し、あなたのアイデアを現実に変えながら創造力を解き放ちましょう。デジタルアートの革命に参加し、今日、画像作成の未来を体験してください！

AI画像生成 Text to Image

Abacus.AI

1.3M

高度なAIエージェントや堅牢なシステムを簡単に作成できる革新的なAIプラットフォームを紹介します。このプラットフォームがユーザーにどのように人工知能を活用させ、プロセスを効率化し、生産性を向上させるかを発見してください。今日、オートメーションと機械学習の可能性を解き放ちましょう！

AIプラットフォーム Large Language Models (LLMs)

MyVocal.AI

10K

MyVocal.AIは、歌ったり話したりするあなたの声をクローンする簡単な方法です。

ボイスクローン Voice & Audio Editing

Machined.ai

42.2K

当社のAI搭載プラットフォームを活用し、コンテンツクラスターの自動化を簡単に実現しましょう。最先端の技術を用いて、オーガニックトラフィックの向上と検索ランキングの強化を図り、現代のデジタルマーケティングに最適化されています。

AIを活用したコンテンツ生成 AI Content Generator

Find AI tools in YBX