人工知能は、ロボットがタッチでオブジェクトを認識するのに役立ちます
- 新しい機械学習ベースの知覚フレームワークは、タッチで90を超えるさまざまなオブジェクトを認識できます。
- 視覚的観察と触覚的観察の両方を使用して、これらの観察が同じオブジェクトに対応するかどうかを識別します。
人間は、複数のモダリティにわたってオブジェクトの外観と材料特性を関連付けるのが得意です。はさみを見ると、指が金属の表面に触れていると感じることが想像できます。それを頭の中で想像することができます。識別だけでなく、サイズ、形状、比率もわかります。
一方、ロボットの認識は本質的にマルチモーダルではありません。高度なカメラを搭載した既存のロボットは2つの異なる物体を区別できますが、特に閉塞や光の状態が悪い場合は、視覚だけでは不十分なことがよくあります。
現在、カリフォルニア大学バークレー校の研究者は、ロボットマニピュレータが人間のようなマルチモーダルな関連付けを学習できるようにする方法を開発しました。視覚的観察と触覚的観察の両方を使用して、これらの観察が同じオブジェクトに対応するかどうかを調べます。
彼らは正確に何をしましたか?
研究チームは、2つのGelSightセンサー(ロボットの指に取り付けられている)と畳み込みニューラルネットワーク(CNN)を介した高解像度のタッチセンシングを採用して、マルチモーダルアソシエーションを実現しました。
これらのセンサーは、エラストマーゲルと統合されたカメラによって読み取り値を生成します。このカメラは、物体との接触によって作成されたゲルのくぼみを記録します。これらの読み取り値は、データ処理のためにCNNに送られます。
研究者は、これらのCNNをトレーニングして、センサーからの触覚の読み取り値とカメラからのオブジェクト画像を取り込み、これらの入力が同じオブジェクトを表すかどうかを識別します。インスタンス認識を実行するために、彼らはロボットの触覚の読み取りとクエリオブジェクトの視覚的観察を組み合わせました。
参照:arXiv:1903.03591 |カリフォルニア大学バークレー校
彼らは、NVIDIA GeForce GTX1080とCUDAディープラーニングフレームワークを備えたTITANX GPUを使用して、33,000を超える画像でマルチモーダルアソシエーションのCNNをトレーニングおよびテストしました。
2つのGelSight触覚センサー(各指に1つ)と正面RGBカメラで構成されるロボット(左)|単一のオブジェクトに対応する触覚観察(中央)とオブジェクト画像(右)の例|研究者の礼儀
結果は、トレーニングで使用されたことのないインスタンスを含め、触覚の読み取りだけでオブジェクトインスタンスを認識することが可能であることを示しています。実際、CNNは一部の人間のボランティアや代替方法を上回っていました。
次は何ですか?
これまでのところ、研究者は個々の把握のみを考慮してきました。次の研究では、複数の触覚的相互作用を使用して、クエリオブジェクトのより完全な全体像を取得します。
読む:15種類のロボット|説明
チームはまた、ロボットが製品の画像を見て、棚の上の物体を感じてそれらを取得するロボット倉庫にシステムを拡張することを計画しています。この新しい方法は、家庭環境のロボットに適用して、手の届きにくい場所からオブジェクトを取得させることができます。
産業技術