3D ビジョンの進化
3D ビジョンは、無数の方法で産業プロセスを改善し、私たちの生活を楽にする最新のオートメーションの中心です。製品の分類、品質管理アプリケーションでのオブジェクトの検査、欠陥の発見、さらにさまざまなタスクを人間が行うよりも速く効率的に完了するのに役立ちます。視覚誘導ロボットは、危険なタスクを実行したり、重い物体を処理したりするために一般的に使用されるため、安全性を高め、怪我のリスクを排除します。
3D センシング技術は、今日私たちが享受できるこれらすべての利点を提供するために長い道のりを歩んできました。最初の写真からデジタル イメージングまで、2D から 3D まで、静的オブジェクトの 3D スキャンから動的シーンのキャプチャまで。次に来るのは?
Photoneo Group の共同創設者兼 CTO である Tomas Kovacovsky と一緒に、3D マシン ビジョンの歴史を調べました インダストリー 4.0 などの今日のトレンドを支配する最新の進歩まで。簡単に見てみましょう。
写真と最初の画像キャプチャ技術
写真の黎明期から、人々は出来事を捉えて記録する可能性に魅了されてきました。 最初に知られている写真 1826 年から 1827 年の間のどこかで撮影されました フランスの発明家ジョセフ ニセフォール ニエプスによるものです。 彼の写真処理には、カメラで数日ではないにしても、少なくとも 8 時間の露出が必要でしたが、同僚の Louis Daguerre は わずか数分の露出しかかからなかった最初の公に発表された写真プロセス (ダゲレオタイプとして知られる) を開発しました。この発明は、1839 年に一般に公開されました。 – 一般的に実用的な写真の誕生と見なされている年。
長い間、写真は出来事を記録する媒体としてのみ機能していました。画像処理にはかなりの時間がかかるため、アナログ技術はマシン ビジョンや意思決定タスクに使用するには理想的ではありませんでした.
1969 年、ウィリアム ボイルとジョージ E. スミス アメリカベル研究所から発明された 画像記録用 CCD (電荷結合素子) センサー これは、デジタル イメージングの発展における重要なマイルストーンでした。 CCD センサーは、光子を電子に変換することによって画像をキャプチャします。つまり、光を受け取り、それをデジタル データに変換します。当時の CCD は、画像キャプチャの標準的なフィルムには太刀打ちできませんでしたが、特定の用途に使用されるようになり、ボールが転がり始めました。
2D から 3D へ
自動化時代の幕開けとなった 2D センシング これは、長い間、産業部門の自動化における一般的なアプローチでした。 2D ビジョンは、今日でも次のような単純なアプリケーションで使用されています:
- 光学式文字認識 (OCR) – 入力、手書き、または印刷されたテキストの読み取り。バーコード読み取り
- 品質管理 – 多くの場合、特別な照明と組み合わせて使用し、スキャンしたオブジェクトの光学的品質を一定に保ちます
- 数える
- 明確な条件下でのアイテムのピッキング
ただし、2D テクノロジの主な制限は、オブジェクトの形状を認識したり、Z 次元で距離を測定したりできないことです。
2D アプリケーションには、照明を追加した良好で明確な条件が必要であり、ビンピッキングなどのアプリケーションも制限されます。このロボット タスクは 2D ビジョン システムで実行できますが、ビン内のオブジェクトのランダムな位置と、2D ビジョン システムでは処理できないシーン内の大量の情報のために、一般的に問題があります。
人々は、より複雑なタスクを自動化するために 3D 情報が必要であることを認識しました。 彼らは、人間が 2 つの目 (立体視) を持っているため、周囲を 3D ビューで見ることができ、物体の距離を知ることができることを理解していました。
1960 年代、ラリー ロバーツ 、コンピューター ビジョンの父として認められている 、線画の 2D 写真から 3D 形状情報を取得する方法について説明しました コンピューターが 1 枚の 2D 写真から 3D モデルを作成する方法。
1970 年代に、低レベルのマシン ビジョン タスクに取り組むために、MIT の人工知能研究所で「マシン ビジョン」コースが開始されました。ここで、David Marr はコンピューター ビジョンを介してシーンを理解するための独自のアプローチを開発し、ビジョンを情報処理システムとして利用しました。彼のアプローチは 2D スケッチから始まり、最終的な 3D 画像を得るためにコンピューターによって構築されました。
マシン ビジョンの研究は 1980 年代に激化し、新しい理論と概念がもたらされました。これらは、さまざまなプロセスを自動化するために産業および製造環境で徐々に採用されるようになった、多くの明確な 3D マシン ビジョン テクノロジーを生み出しました。
最初の 3D ビジョン テクノロジー
人間の立体視を模倣する努力の結果、最初の 3D センシング技術の 1 つである パッシブ ステレオ が開発されました。 .この三角測量法では、2 つの見晴らしの良い場所からシーンを観察し、三角形を計算しますカメラ - スキャンされたオブジェクト - カメラ 、2 つの画像間の相関関係を探します。画像間の視差に基づいて、スキャンしたオブジェクトからの距離 (深度) を計算します。ただし、このアプローチは画像内の同一の詳細を見つけることに依存しているため、白い壁やパターンのないシーンではうまく機能しません。パッシブ ステレオの信頼性は低く、通常、3D 出力はノイズが多く、多くの計算能力が必要です。
この欠点を補うために、研究者はシーンに光パターンを投影して表面に人工的なテクスチャを作成し、シーン内の対応を簡単に識別できるようにする実験を開始しました。この方法はアクティブ ステレオと呼ばれます .この方法はパッシブ ステレオよりも信頼性が高くなりますが、再構成の品質は処理時間に関する厳しい要件によって損なわれることが多く、多くのアプリケーションでは不十分です。
3D 情報を取得するための最も初期の、そして今でも非常に人気のある方法の 1 つは、レーザー プロフィロメトリーです。 .この技術は、狭い帯域の光 (または点) を 3D サーフェスに投影します。これにより、プロジェクターの角度とは異なる角度から歪んで見える照明の線が生成されます。この偏差は深度情報をエンコードします。ライン スキャナは、一度に 1 つの深度プロファイルをすばやく連続してキャプチャします。そのためには、スキャン対象またはカメラを常に移動させる必要があります。レーザー形状測定は、工業用途に採用された最初の 3D スキャン方法の 1 つであり、たとえば、計測アプリケーションでは今でも非常に人気があります。
構造化された光のパターンをシーンに投影することによって発明された別の方法は、構造化された光です。 .デジタル復元のためのバイナリ コードによる構造化ライトの使用について論じた最も引用された作品の 1 つは The Digital Michelangelo Project でした。 スタンフォード大学のマーク・レヴォイと彼のチームが率いています。プロジェクトは 1998 年に始まり、プロジェクターとカメラ センサーを使用してミケランジェロの彫像をデジタル化しました。ミケランジェロのダビデ像のレーザー スキャン データは、2002 年に開始された彫像の修復に使用されました。アーティファクトとオブジェクト。このおかげで、この技術は、計測アプリケーションや、高いスキャン精度を必要とするその他のロボットおよびマシン ビジョン タスクにそのニッチを見出しました。
徐々に、構造化光技術は計測学を超えて拡大し、視覚誘導ロボットを使用するあらゆる種類のオンライン アプリケーションに浸透しました。構造化された軽量 3D スキャナーの利点は、移動する必要がないことです。スキャン領域全体のスナップショットを作成でき、スキャナーでオブジェクト全体を一周する必要がないため、レーザープロフィロメトリーに基づくデバイスよりも高速であり、多くのデータ後処理を必要としません。
静的シーンから動的シーンへ
動きのキャプチャは、静止シーンの 3D スキャンよりもはるかに困難であり、より長い取得時間を必要とする方法は不適格です。
パッシブ ステレオなので 追加の照明を使用しないパッシブな方法です。動的なシーンのキャプチャに使用できますが、特定の条件が満たされた場合にのみ使用できます。それでも、結果は良くありません。
レーザー形状測定 この点では、パッシブ ステレオよりもはるかに成功した方法ではありません。一度に 1 つのプロファイルをキャプチャするため、シーン全体のスナップショットを作成するには、カメラまたはシーンを移動する必要があります。ただし、このテクノロジーでは動的イベントをキャプチャできません。単一のプロファイルの深度を再構築するには、狭い領域のスキャン画像をキャプチャする必要があるため、そのサイズによってフレーム レートが制限され、結果としてスキャン速度も制限されます。
構造化された光 一方、システムは複数の照明パターンを次々とシーンに投影します。このためには、シーンが静的である必要があります。スキャンしたオブジェクトまたはカメラが動くと、コードが壊れて 3D 点群が歪んでしまいます。
動的オブジェクトを 3D で再構成する必要性から、Time-of-Flight (ToF) が開発されました。 システム。構造化光技術と同様に、ToF は光信号をシーンに送信し、カメラとそのソフトウェアで信号を解釈するアクティブな方法です。構造化された光とは対照的に、ToF は光を空間ではなく時間で構造化します。これは、光源から発せられた光信号がスキャン対象物に当たり、センサーに戻るまでの時間を測定するという原理に基づいています。
最初の ToF システムはかなり低品質でした。この分野の大手企業には、Canesta、3DV Systems、または Microsoft (後に両社を買収) などの企業が含まれます。初期の有名なプロジェクトの 1 つは、ZCam でした。これは、3DV によって開発され、後に Microsoft によって購入され、Microsoft の Xbox ビデオ ゲーム コンソールで 3D 情報の取得と仮想オブジェクトとの相互作用に使用される飛行時間型カメラです。 /P>
2010 年、Microsoft は Xbox 用の Kinect センサー システムをリリースしました。これは、PrimeSense テクノロジに基づくモーション センシング カメラです。 PrimeSense テクノロジーは、構造化パターンを使用して特定のピクセル (すべてではない) をエンコードし、3D 情報を取得しました。この方法は、スキャンしたオブジェクトのエッジに高解像度と詳細な輪郭を提供することはできませんでしたが、処理速度がかなり速く、技術も非常に手頃な価格だったため、広く採用されました。主に学術分野で使用されてきましたが、ロボットによるピッキングやその他の作業のための産業環境でもほとんど見られません.
Kinect 1 とは対照的に、Kinect 2 は ToF 技術に基づいていました。 ToF の進歩により、この方法はますます普及し、広く採用されるようになりました。PrimeSense テクノロジーよりも高い品質を提供できますが、動的シーンの 3D スキャンの解像度はまだ十分ではありませんでした。
今日の ToF システムは、スキャン速度が速く、ほぼリアルタイムで取得できるため、3D ビジョン アプリケーションで非常に人気があります。ただし、解像度は依然として問題であり、高いノイズ レベルにも苦労しています。
2013 年、Photoneo は、高速で移動するオブジェクトをキャプチャして、高解像度とサブミリの精度で 3D 情報を取得する方法について革新的なアイデアを思いつきました。
Parallel Structured Light の特許技術 は、モザイク ピクセル パターンを備えたマルチタップ シャッターを特徴とする独自の特殊な CMOS センサーに基づいており、画像の撮影方法を根本的に変えます。
この斬新なスナップショット アプローチは、構造化された光を利用しますが、カメラとプロジェクターの役割を交換します。構造化された光システムがプロジェクターから複数のパターンを連続して放出するのに対し、パラレル ストラクチャード ライト テクノロジーは、パターン化することなく、非常に単純なレーザー スイープをシーン全体に送信します。反対側のCMOSセンサーにパターンを構築します。これらすべてが 1 回のインスタンスで発生し、1 つの露出ウィンドウ内で複数の仮想イメージを構築できます。その結果、モーション アーティファクトのない、動くシーンの高解像度で高精度の 3D 画像が得られます。
Parallel Structured Light テクノロジーによって捉えられたダイナミックなシーン .
Parallel Structured Light テクノロジーは、Photoneo の 3D カメラ MotionCam-3D に実装されています。カメラの開発と市場へのリリースは、マシン ビジョンの歴史における画期的な出来事であり、ビジョン誘導ロボティクスを再定義し、自動化の可能性を前例のないレベルに拡大しました。この斬新なアプローチは、Vision Award 2018 を含む多くの賞で認められました 、Vision Systems Design Innovators Platinum Award 2019 、inVision トップ イノベーション 2019 、IERA Award 2020 、ロボティクス ビジネス レビューの RBR50 ロボティクス イノベーション アワード 2021 、inVision トップ イノベーション 2021 、SupplyTech Breakthrough Award 2022 .
モーションとカラーの 3D スキャン
2022 年、Photoneo は MotionCam-3D の機能を拡張し、カラー データをキャプチャするためのカラー ユニットを搭載しました。 MotionCam-3D Color は、動くシーンのリアルタイムのカラフルな 3D 点群を完璧な品質で最終的に作成できるため、マシン ビジョンの次の特効薬と見なされています。 3D ジオメトリ、モーション、色の独自の組み合わせにより、カメラは、深度情報だけでなく色データにも依存する、要求の厳しい AI アプリケーションやロボット タスクへの扉を開きます。
MotionCam-3D Color を使用した、動くシーンのカラフルな 3D 点群のリアルタイム作成 .
マシン ビジョンのイノベーションによって可能になる応用分野
3D マシン ビジョンの最新の技術革新によって提供される可能性により、最近まで実行できなかったタスクを自動化できます。これらのアプリケーションは、製造、ロジスティクス、自動車、食料品、農業、医療、その他の分野で見られ、以下が含まれます。
- 一定またはランダムな動きで物体をロボットが処理する
- ベルトコンベアやオーバーヘッドコンベアからのピッキング
- 手の目の操作
- 検査と品質管理のための 3D モデルの作成
- 大きなオブジェクトのクリーニングとペイント
- VR/AR でのメンテナンス作業
- 農業における選別と収穫
- その他多数
次に来るのは?
マシン ビジョンは、新しい可能性を秘めた新しい進歩をもたらすために発展を続けています。イノベーションの方向性は、市場の要求、顧客の期待、競争、その他の要因によって常に影響を受けます。
オーダーメイドのアルゴリズムの開発を排除する目的で、マシン ビジョンのすべての領域に AI を展開する傾向は確実に続くと予想できます。 人工知能 (AI) の分野と、それと Parallel Structured Light テクノロジーとの組み合わせには、大きな可能性があることがわかります。 一方で、AI は優れたデータに依存しています。一方、新しいマシン ビジョン技術は、大量の高品質のリアル 3D データを提供できます。これら 2 つのアプローチを組み合わせることで、インテリジェント ロボティクスを変革し、新しい可能性の領域を実現できます。
将来の開発のもう 1 つの有望な方向性は、エッジ コンピューティングです。 メーカーは、AI をセンサーに直接統合するための取り組みを継続する可能性があります。 定義された目的 (例:人数のカウント、寸法測定、または定義されたオブジェクトの特徴の自動検出) に特化して、インテグレーターの展開を容易にし、追加のコンポーネントの必要性を最小限に抑えます。動くシーンをキャプチャできる新しいハードウェア ソリューションと高度な AI アルゴリズムを組み合わせることで、協働ロボティクスや完全なロジスティクスの自動化などのより困難な分野でも、ますます広がるアプリケーション分野を拡張できます。
自動制御システム