ヘッドホンはフェイスマスクを使用しても顔の表情を追跡します
研究者は、頬の輪郭を観察することで顔の表情全体を継続的に追跡できるイヤホンを発明しました。その後、表情を絵文字や無音の音声コマンドに変換できます。耳に取り付けられたデバイス(C-Faceと呼ばれる)を使用すると、ユーザーは顔の前にカメラを置くことなく、オンラインの共同作業者に感情を表現できます。これは、世界中の多くの人がリモートワークや学習に従事しているため、特に便利なコミュニケーションツールです。
このデバイスは、顔の表情を追跡するための既存の耳に取り付けられたウェアラブルテクノロジーよりもシンプルで、目立たず、より高性能です。顔の表情を認識することを目的とした以前のウェアラブル技術では、ほとんどのソリューションは顔にセンサーを取り付ける必要がありました。非常に多くの計装を使用しても、限られた一連の個別の表情しか認識できませんでした。
C-Faceを使用すると、バーチャルリアリティ環境のアバターは、ユーザーが実際にどのように感じているかを表現でき、インストラクターはオンラインレッスン中に学生の関与に関する貴重な情報を得ることができます。また、顔の手がかりのみを使用して、音楽プレーヤーなどのコンピューターシステムを指示するために使用することもできます。 C-Faceは筋肉の動きを検出することで機能するため、ユーザーがマスクを着用している場合でも顔の表情をキャプチャできます。
このデバイスは、ヘッドホンまたはイヤホンで各耳の下に配置された2つのミニチュアRGBカメラ(赤、緑、青の光の帯をキャプチャするデジタルカメラ)で構成されています。カメラは、顔の筋肉が動くときに引き起こされる顔の輪郭の変化を記録します。顔の表情をするとき、顔の筋肉は伸び縮みし、皮膚を押したり引いたりして、近くの顔の筋肉の緊張に影響を与えます。この効果により、耳の視点から頬の輪郭(輪郭)が変化します。
画像がキャプチャされると、コンピュータビジョンと深層学習モデルを使用して再構築されます。生データは2Dであるため、畳み込みニューラルネットワーク(画像の分類、検出、取得に優れた人工知能モデルの一種)は、輪郭を表現に再構築するのに役立ちます。モデルは、頬の画像を42の顔の特徴点、つまりランドマークに変換します。これらの特徴は、表情の変化によって最も影響を受けるため、口、目、眉の形と位置を表します。
COVID-19のパンデミックによって引き起こされた制限のため、研究者は9人の参加者だけでデバイスをテストすることができました。彼らは、その性能を、正面カメラで撮影された顔全体の画像から顔のランドマークを抽出する最先端のコンピュータービジョンライブラリと比較しました。再構築されたランドマークの平均誤差は0.8mm未満でした。
42の特徴点で表されるこれらの再構築された表情は、「自然」と「怒り」を含む8つの絵文字、および「再生」、「次の曲」、「ボリュームアップ。」
顔の表情を使用してデバイスを誘導する機能は、たとえば、人々が大声で話すことによって他の人の邪魔をしたくない場合がある共有ワークスペースでの作業に役立つ可能性があります。表現を絵文字に変換すると、バーチャルリアリティコラボレーションの人々がよりシームレスにコミュニケーションできるようになります。
C-Faceの制限の1つは、イヤホンのバッテリー容量が限られていることです。次のステップとして、チームはより少ない電力を使用するセンシング技術に取り組むことを計画しています。
センサー