SonicSense:ロボットが人間のように聞くことを可能にし、よりスマートなインタラクションを実現

デューク大学の新しい研究では、これまで人間に限定されていた方法でロボットが周囲と対話できるようにする SonicSense と呼ばれるシステムについて詳しく説明しています。

「今日のロボットは主に視覚に頼って世界を解釈しています」と主著者で博士課程 1 年の Jiaxun Liu 氏は説明します。デューク大学の機械工学および材料科学教授、ボーユアン・チェンの研究室の学生。「私たちは、日常的に見られる複雑で多様な物体を処理できるソリューションを作成し、ロボットに世界を「感じ」、理解するためのより豊かな能力を提供したいと考えていました。」

SonicSense は 4 本の指を持つロボットハンドを備えており、それぞれの指の指先に接触マイクが埋め込まれています。これらのセンサーは、ロボットが物体をタップしたり、掴んだり、振ったりしたときに発生する振動を検出し、記録します。また、マイクが物体に接触しているため、ロボットは周囲の騒音を消すことができます。

SonicSense は、相互作用と検出された信号に基づいて周波数特徴を抽出し、これまでの知識と最近の AI の進歩を組み合わせて、物体の材質とその 3D 形状を把握します。それがシステムがこれまでに見たことのないオブジェクトである場合、システムが結論に達するまでに 20 回の異なる対話が必要になる可能性があります。しかし、すでにデータベースに存在するオブジェクトであれば、わずか 4 回で正しく識別できます。

こちらは独占的な技術ブリーフです。長さと明瞭さのために編集されたチェンとのインタビュー。

技術概要 :SonicSense の開発中に直面した最大の技術的課題は何ですか?

チェン :1 つ目は、ロボットの知覚に音響振動を使用することに関する広範な研究が実際には行われていないということだと思います。これまでの作業のほとんどは 1 本の指で行われたか、非常に予備的なものでした。しかし、これを実際のロボットハンドに装着して、さまざまなオブジェクトと対話できるようにするのは簡単な作業ではありません。

技術概要 ：このプロジェクトはどのようにして生まれたのですか？あなたの仕事のきっかけは何でしたか?

チェン ：とても興味深い話ですね。私の作品のパート 1 はラジカセと呼ばれるもので、これは新型コロナウイルス感染症の最中でした。ロボットとビジョンの仕事がしたいと考えていました。そのため、私たちは音響振動を頻繁に使用しているため、音響振動をセンシングに取り入れることに数年前からすでに興味を持っていました。

神経科学では、人間の皮膚には振動ニューロンがあります。そこで、これらのことについて読み、これをどのようにロボットに導入できるかを考えました。しかし、コロナ禍ではロボットを利用できませんでした。私は博士号を取得しました。コロンビア大学に進学したため、ニューヨーク市の小さな寮に住んでいましたが、本当にこの研究をしたいと思っていました。ある日、私はふとしたアイデアを思いつきました。「これが役に立つことを示すために、ロボットなしで何ができるでしょうか?

」

自分の部屋におもちゃ箱がありました。そこにランダムに物体を投げ込むことで、「この物体を取りに行かなければならないが、どこにあるのか分からない」と気づきました。私が放り込んだ物体は何ですか?』それは完璧なリサーチの質問でした。

まず、形状の異なる 3 つの異なる木箱を用意し、それらをゴミ箱に捨てました。私は、投げた物体の形状と、物体が見えないため投げた後にその物体がどこに行き着くかを予測する AI システムをトレーニングしました。これがプロジェクトでした。

基本的には 4 つのコンタクトマイクを使用するという考えでした。ゴミ箱の壁の周りに取り付けます。 4 チャンネルのマイクからの音響振動のみを記録します。ギターの音を拾うマイクを使いました。私はそれらをゴミ箱に貼り付け、音声からこの 3D 操作の予測までのシステムをトレーニングしました。それがそのプロジェクトの始まりでした。

そしてもちろん、これをロボットでもやりたいと思いました。そこがまさに SonicSense の発祥の地でした。

技術概要 :仕組みを簡単に説明していただけますか?

チェン :ハードウェアとソフトウェアが統合されたシステムです。ハードウェア部分には 4 本の指を備えたロボットグリッパーがあり、各指先にはコンタクトマイクが埋め込まれています。この接触マイクは私たちの発言を感知するのではなく、物理的な接触の振動を感知します。

ソフトウェア側では、基本的に、単純にタップするかコンテナでオブジェクトを掴んで振るだけで、ロボットが自律的に環境をエクスポートできるようになります。ソフトウェアは、4 つの接触マイクからの信号とモーター信号をまとめて収集します。

私たちは人工知能ネットワークをトレーニングして、「コンテナーにはサイコロが何個入っていますか?」などのことを予測します。このダイにはエッジが何本ありますか?この水筒にはどれくらいの液体が入っていますか?別の容器にどのくらい注いでいますか?』

技術概要 :次のステップは何ですか?

チェン :私たちは、まず第一に、人間レベルの操作の器用さを達成するために他のどのようなセンシング方式が必要かという観点から、いくつかの新しいアイデアを検討しています。ただし、操作だけでなく、ロボット工学に関するより広範なコンテンツの場合はなおさらです。移動、ナビゲーション、その他あらゆる用途にも使用できます。他に必要なセンシング手段はあるのでしょうか?したがって、人間や動物にも備わっていない能力をロボットに与えたり、ロボットに与えたりできる新しい手法を模索することは、1 つの方向性です。

私たちが検討しているもう 1 つの方向は、ロボットにすでに組み込まれている他のモダリティです。たとえば、ビジョン、そして単一の視点ではなく世界を一貫して理解するために、すべてのモダリティをどのように融合させるのでしょうか?したがって、多くのセンシングモダリティを組み合わせて、統一された理解を得ることができます。

私たちが検討している 3 番目の方向は、これを人間の操作能力の真のベクトルにもたらすことです。現在の設計はほとんどプロトタイプです。私たちは、手の形態と感知能力の両方をより大きなスケールでスケーリングすることによってこれを実現したいと考えています。これは、より人間に近い手に多くのセンサーを取り付け、器用な操作能力を実際に示すことを意味します。現時点ではオブジェクトの認識を行っているだけですが、より高度な機能でオブジェクトを操作できるようにしたいと考えています。

トランスクリプト

00:00:00 ロボットの物体認識を豊かにするための音響振動センシングを可能にする統合ハードウェアとソフトウェアのフレームワークである Sonic sense を導入しました。最近の研究では、物体材料の音響振動センシングとカテゴリ分類位置予測を利用して、粒状材料の量と流れを推定し、オブジェクトの空間推論を集合的に実行します。

00:00:23 視覚的再構成ただし、これまでの研究は、均一な材料組成を持つ少数の原始的な物体に焦点を当てており、データ収集と 1 本の指のテストでは設定が制限されていたため、音響振動センシングが、騒音が多く制御が不十分な条件下での物体の認識に役立つかどうかは不明です。

00:00:44 現在のソニックセンスは、音響振動センシングの強化を通じて物体認識のためのハードウェアとアルゴリズムの両方の総合的なデザインを進化させています。ロボットハンドには 4 本の指があります。電気接触マイクが各指先の内側に埋め込まれ、カウンターウェイトの周囲が外殻表面に取り付けられ、指の動きの勢いを高めます。直感的な機械設計

00:01:07 は、さまざまなインタラクティブな動作を可能にします。タッピングやつかみ動作、振る動作など、オブジェクト認識のためのプリミティブを備えています。埋め込まれた接触マイクは、オブジェクト間の接触やオブジェクトと手の相互作用によって生成される高周波音響振動を収集できます。私たちのロボットは、コンテナ内のさまざまなオブジェクトの形状と在庫状況を

から推測できます。

00:01:31 インタラクション中の固有の音響振動シグネチャから、これらの異なる音響振動シグネチャを区別するのに役立つ、従来の音響信号処理方法に基づいて 12 の解釈可能な特徴を導出します。ロボットが移動できるコンテナを振ることにより、この 12 次元の特徴ベクトルに対して tne による教師なし非線形次元削減を実行しました。

00:01:54 ロボットが保持するボトル内に水を注ぐときに、容器内の異なる数のサイコロや形状の異なるサイコロをうまく区別できました。ボトル内の既存の水の量に基づいて、音響特性の微妙な違いを検出できます。ロボットは、ボトルをさらに振ったときに、ボトル内の水の量の違いも検出できます。

00:02:15 挑戦的なオブジェクト認識タスクでは、83 の多様な実世界オブジェクトを含むデータセットを開発しました。私たちのオブジェクトは、9 つのマテリアルカテゴリと、単純なプリミティブから複雑な形状までのさまざまなジオメトリをカバーしています。人間がロボットの手を手動で保持してオブジェクトと対話したり、固定の対話ポーズやリプレイの力を設計したりする以前の研究とは異なり、シンプルだが効果的なものを導き出します。

00:02:40 オブジェクトの音響振動応答を自律的に収集するためのヒューリスティックベースのインタラクションポリシー私たちのポリシーは、さまざまなサイズと形状をカバーするすべての現実世界のオブジェクトに対してうまく機能します。衝撃音から収集した音響振動信号のメルスペクトログラムを取り込み、予測を学習する材料分類モデルをトレーニングしました。

00:03:02 マテリアルラベルネットワークは 3 つの畳み込みニューラルネットワーク層とそれに続く 2 つの MLP 層の形式をとります。メソッドの最初の結果は 0.523 の F1 スコアにつながりますが、この仮定に基づいて、オブジェクトのマテリアルが局所領域の周囲で比較的均一で滑らかであることが観察されました。予測を反復して最終的な平均 F1 に絞り込むことができます。

00:03:25 スコアは 0.763 に達します。形状 Recon 構築モデルは、まばらでノイズの多い接触点を取得して、オブジェクトの緻密で完全な 3D 形状を生成します。2 つの尖ったレイヤーを積み重ねて入力をエンコードし、完全に接続されたレイヤーを持つデコーダーネットワークにグローバル特徴ベクトルを供給して、最終的な点群を生成します。結果は平均 z を取得しました。 Z

00:03:50 Z 876 M は距離スコアのチャンピオンであり、原始的な形状を持つオブジェクトの予測は、一般にほぼ完璧なパフォーマンスを示します。さらに、私たちの方法は、オブジェクトが音響振動応答でロボットと相互作用したときに、スパーとノイズの多い接触点推定を通じてのみ複雑な形状を持つオブジェクトを再構築する機能を示します。

00:04:13 ロボットに 15 の新しいタッピングインタラクションを通じてオブジェクトを再識別させます。メルスペクトログラムのコレクションとそれに関連付けられたコンタクトポイントの両方をネットワークに入力して、データセット内の 82 個のオブジェクトの中からこのオブジェクトのラベルを予測します。ロボットは 92% 以上の精度で同じオブジェクトを再識別できます。ロボットは周囲環境に対して強い耐性があります。

00:04:37 ノイズを除去し、物理的接触による振動信号のみに焦点を当てることで、厳しい環境条件下でも高品質で信頼性の高いセンシングデータを確保します。ロボットハンド全体のコストは、市販のコンポーネントと 3D プリントで 215 ドルかかります。実験結果は、さまざまな物体認識に対する当社の設計の多用途性と有効性を実証しています。

00:05:01 コンテナ内の固体および液体の物体の在庫状況の推定を含むタスク材料の分類 3D 形状の再構築と物体の再識別全体的に、私たちの方法は音響振動による触覚への独自の貢献を示し、より堅牢な完全なロボットを構築するための将来のロボット設計に新たな機会を開きます

00:05:23 世界の多用途かつ全体的な知覚モデル

コンパクトな卓上ロボットが理学療法の提供に革命をもたらす NASA が開発した電気スラスターにより、商用衛星の軌道維持とミッション寿命の延長が可能に

センサー