Decart が Oasis3 を発表:ロボット工学トレーニングのための現実的で低遅延の世界モデル

フロンティア AI 研究所 Decart は、合成シミュレーションと現実世界の AI 導入の間の溝を埋めるように設計された世界モデルである Oasis3 を導入しました。

今月発表されたビデオ出力エンジンは、ロボットと自動運転車の制御システムのトレーニングを加速し、予測不可能な現実世界の状況の中でもうまく機能できるようにします。

ロボット開発者は、複雑な現実世界の環境をナビゲートできるシステムをトレーニングするために必要な高品質データの不足に直面しています。

車両は、固定されたトラフィックコーンを備えた静的な駐車場での操縦方法を学習できますが、一般道路では、天候、照明、動的な障害物が常に変化する、はるかに要求の厳しい環境になります。

大雨、突然の障害物、不安定な交通など、都市部の混乱に対処するためのトレーニングシステムは、Oasis3 が取り組む明確な課題を表しています。

大規模言語モデル (LLM) は急速に進歩していますが、汎用ロボット工学 (物理 AI) は遅れをとっています。これは主にリッチメディアリソースの不足が原因です。

Bessemer Ventures は、LLM 開発者は何十億もの公開 Web ページをスクレイピングすることで恩恵を受けており、物理空間内で解釈して動作する必要がある Vision-Language-Action (VLA) モデルでは得られない贅沢であると指摘しました。

VLA モデルは環境データを取り込んで処理し、応答します。彼らをトレーニングするには、次の 3 つの主な方法があります。

遠隔操作 —人間のオペレーターが、制御されたスーツでロボットの動作を模倣します。最高品質のデータが得られますが、法外に高価で時間がかかるため、大規模な導入は現実的ではありません。
オープンウェブビデオ — すぐに利用できますが、煩雑で、一貫した環境、空間テレメトリー、直接的なアクションの条件付けが欠けています。
合成データ — 中間点ではありますが、現在の物理エンジンは現実世界のニュアンスに達しておらず、いわゆるシミュレーションと現実のギャップが生じています。 .

このギャップは、石油流出、壊れやすい梱包材、予期せぬ破片など、現実世界のランダム性によって自律システムのバランスが崩れ、その限界が明らかになるときに現れます。

Decart は、Oasis3 はフォトリアリスティックなモーショングラフィックスと堅牢な物理エンジンを融合することで、既存の仮想トレーニングの限界を埋めると主張しています。

Oasis3 は単一の高性能トレーニングループに組み込まれており、開発者が思い描くほぼすべてのカオスシナリオを生成できるアクション条件付きビデオストリームを生成し、現実を忠実に反映したトレーニング環境を作成します。

このプラットフォームは、完全に制御可能なマルチビューの超現実的な環境をサポートします。自動運転車の横方向の偏差は、200 ミリ秒未満で視点を調整する生成ストリームをトリガーします。これは強化学習の要件内に十分収まります。

Nvidia の物理 AI エコシステムと共同設計された Oasis3 は、CoreWeave の特殊なクラウドインフラストラクチャ上で 22fps で実行され、512×768×3 の解像度でインタラクティブな仮想環境を提供します。

ネイティブの 3 カメラビューを提供して、複数の角度から空間的および時間的一貫性を維持し、自律システムが深度と周辺コンテキストを正確に測定できるようにします。

Oasis3 は Decart の API 経由でアクセスできるため、開発者は Oasis3 を既存の物理 AI シミュレーションパイプラインにシームレスに統合できます。

SF レベルのヒューマノイドを実現するには、ロボットを訓練して、ユニークなエッジケースをリアルタイムで管理する必要があります。これは、自動運転車のカメラが泥で隠れている間に荷物が道路に落ちているなど、実験室で再現するのが不可能な状況です。

Oasis3 を使用すると、開発者は、シンプルな自然言語プロンプトを使用して、さまざまな角度、気象条件、路面にまたがるこのようなイベントの無限のバリエーションを作成できます。

手頃な価格でモデルを何百万もの危険にさらすことで、開発者は現実世界のあらゆるシナリオに確実に対応できるようになります。

Decart が Oasis3 を発表:ロボット工学トレーニングのための現実的で低遅延の世界モデル

自動制御システム