AIは、マップなしで見慣れない環境をナビゲートできるようになりました

Facebook AIの研究者は、DD-PPOという名前の新しい強化学習アルゴリズムを開発しています。
コンパスデータ、RGB-Dカメラ、GPSのみを使用して複雑な環境をナビゲートできます。

物理的な世界とスマートに相互作用するインテリジェントなマシンを開発することは、AIコミュニティの長期的な目標でした。主な課題は、これらのマシンに、地図を使用せずに複雑でなじみのない環境を効率的にナビゲートできるようにすることです。

通常、実際の地図は、建物や構造物が変化したり、オブジェクトが移動したりするため、数か月以内に古くなります。そのため、地図なしでナビゲートできる物理的な世界向けのAIを構築する必要があります。

これらのことを念頭に置いて、Facebook AIの研究者は、コンパスデータ、RGB-Dカメラ、およびGPSのみを使用してポイントゴールナビゲーションタスクを効果的に解決する新しい強化学習（RL）アルゴリズムを開発しました。この大規模なアルゴリズムは、DD-PPO（分散型分散型近位ポリシー最適化）と呼ばれます。

新しいRL分散アーキテクチャは適切に拡張できます

今日、機械学習ベースのシステムは、さまざまな複雑なゲームで人間の専門家をしのぐことができます。ただし、これらのシステムは大量のトレーニングサンプルに依存しているため、大規模な分散並列化なしでシステムを構築することは不可能です。

現在の分散型強化学習アーキテクチャ（数千のワーカー（CPU）と単一のパラメーターサーバーを含む）は、適切に拡張できません。そのため、研究者は同期分散強化学習手法を提案しました。

DD-PPOは複数のマシンで実行され、パラメーターサーバーはありません。各ワーカー（CPU）は、GPUで高速化され、リソースを大量に消費するシミュレートされた環境でのエクスペリエンスの収集と、モデルの最適化を交互に行います。明示的な通信状態では、すべてのワーカーが更新をモデルに同期します。つまり、配布は同期的です。

すべてのワーカーは、ポイントゴールナビゲーションを実行するエージェントをシミュレートし、モデルを最適化して更新を同期します|これは、DD-PPOとのトレーニング中にデータが共有される方法です。

このアプローチを使用して、DD-PPOはほぼ線形のスケーリングを示しました。シリアル実装を介して128GPUで107倍のスピードアップを達成することができました。

参照：arXiv：1911.00357 | Facebook AI

ほぼ完璧なポイント-目標ナビゲーション

ポイントゴールナビゲーションでは、エージェントは、なじみのない環境でランダムな初期位置/方向に設定され、マップを使用せずにターゲット座標にナビゲートするようにタスクが設定されます。コンパス、GPS、およびRGBまたはRGB-Dカメラのみを使用できます。

研究者は、DD-PPOのスケーリング機能を利用して、エージェントを25億ステップトレーニングしました。これは、80年の人間の経験に相当します。数か月ではなく、64個のGPUを使用して3日以内にトレーニングを完了しました。

結果は、ピークパフォーマンスの90％が、より少ないコンピューティングリソース（8 GPU）で最初の1億ステップで得られたことを示しています。数十億のステップの経験により、エージェントは99.9％の成功率を獲得します。対照的に、以前のシステムは92％の成功率を達成しました。

エージェントは、ターゲット位置に到達するために間違ったパスを選択した後、バックトラックします|研究者の礼儀

アプリケーション

これらのAIエージェントは、現実世界の人々を支援することができます。たとえば、拡張現実メガネをかけているユーザーに関連情報を表示したり、ロボットが2階の机からアイテムを取り出したり、AIを利用したシステムで視覚障害のある人を支援したりできます。

この調査で作成されたモデルは、追加のデータポイント（マップとGPSデータ）が利用できない研究所やオフィスビル内などの通常の設定で機能します。

読む：Facebookは、前例のない精度で誰の声もコピーできるAIを開発しています

このモデルは、ImageNetの事前トレーニング済み畳み込みニューラルネットワークよりも優れており、ユニバーサルリソースとして機能できますが、複雑な環境をナビゲートすることを学習するシステムを開発するには、まだやるべきことがたくさんあります。研究者は現在、RGBのみのポイントゴールナビゲーションを実装するための新しいアプローチを模索しています。

新しいアルゴリズムは、任意の2つのオーディオ信号をシームレスにブレンドします世界最速の回転物体は3000億RPMで回転します

産業技術