ハードウェアアクセラレータはAIアプリケーションに役立ちます

ハードウェアアクセラレータ（オブジェクトの分類などの特定のタスクを実行するために使用される特殊なデバイス）は、さまざまなAIアプリケーションにサービスを提供するシステムオンチップ（SoC）にますます組み込まれています。これらは、より低い電力、より低いレイテンシ、データの再利用、およびデータの局所性を提供する、緊密に統合されたカスタムプロセッサの作成に役立ちます。

まず、AIアルゴリズムをハードウェアで高速化する必要があります。 AIアクセラレータは、AIタスクのより高速な処理を可能にするように特別に設計されています。従来のプロセッサでは実行できない方法で特定のタスクを実行します。

さらに、単一のプロセッサでAIアプリケーションの多様なニーズを満たすことはできません。ここで、AIチップに組み込まれたハードウェアアクセラレータは、特定のワークロードにパフォーマンス、電力効率、および遅延の利点を提供します。そのため、AIアクセラレータに基づくカスタムアーキテクチャは、AIアプリケーションでのCPUとGPUの使用に挑戦し始めています。

AIチップの設計者は、何を加速するか、どのように加速するか、そしてその機能をニューラルネットと相互接続する方法を決定する必要があります。以下は、進化するAIワークロードでのハードウェアアクセラレータの使用を定義する主要な業界トレンドのスナップショットです。必然的に、さまざまなAIチップやカードに統合できるAIアクセラレータから始まります。

AIアクセラレータIP

ハードウェアアクセラレータは、AIチップで広く使用されており、トレーニングと推論の両方のアプリケーションで、コンピュータビジョンやディープラーニングなどのデータ集約型のタスクをセグメント化して迅速化します。これらのAIコアは、Caffe、PyTorch、TensorFlowなどのAIフレームワーク上のニューラルネットワークを高速化します。

Gyrfalcon Technology Inc.（GTI）は、AIチップを設計し、IPライセンスモデルを通じてカスタムSoC設計で使用するためのAIアクセラレータを提供します。カリフォルニア州ミルピタスを拠点とするAIの新興企業は、エッジアプリケーションとクラウドアプリケーションにそれぞれLightspeeur2801と2803のAIアクセラレータを提供しています。

Gyrfalconはこれらのハードウェアアクセラレータを中心にAIチップも開発しており、これによりこれらのAIアクセラレータIPはシリコンで実証されていることに注意してください。エッジデザイン用の同社の2801AIチップは、ワットあたり1秒あたり9.3テラの操作（TOPS / W）を実行し、データセンターアプリケーション用の2803 AIチップは、24 TOPS / Wを提供できます。

Gyrfalconは、IP開発ツールと技術文書に加えて、モデル作成、チップ評価、および概念実証設計のためのUSB3.0ドングルをAI設計者に提供します。ライセンシーは、これらのドングルをWindowsおよびLinux PCだけでなく、RaspberryPiなどのハードウェア開発キットでも使用できます。

ハードウェアアーキテクチャ

AIアクセラレーターの基本的な前提は、可能な限り少ない電力でアルゴリズムをこれまでになく高速に処理することです。これらは、エッジ、データセンター、またはその間のどこかでアクセラレーションを実行します。また、AIアクセラレーターは、ASIC、GPU、FPGA、DSP、またはこれらのデバイスのハイブリッドバージョンでこれらのタスクを実行できます。

それは必然的に、機械学習（ML）、深層学習、自然言語処理、およびその他のAIワークロード用に最適化されたいくつかのハードウェアアクセラレータアーキテクチャにつながります。たとえば、一部のASICはディープニューラルネットワーク（DNN）で実行するように設計されており、DNNはGPUまたは別のASICでトレーニングされている可能性があります。

AIアクセラレータアーキテクチャを重要なものにしているのは、AIタスクを超並列化できるという事実です。さらに、AIアクセラレータの設計はマルチコアの実装と絡み合っており、AIアクセラレータアーキテクチャの決定的な重要性を強調しています。

次に、AI設計は、ニューラルネットの効率を高めるために特別に作成されたアクセラレータをますます追加することにより、アルゴリズムをますます細かくスライスしています。ユースケースが具体的であればあるほど、多くの種類のハードウェアアクセラレータをきめ細かく使用できる機会が増えます。

ここで言及する価値があるのは、カスタムチップに組み込まれたAIアクセラレーターに加えて、アクセラレーターカードもクラウドサーバーとオンプレミスデータセンターのパフォーマンスを向上させ、レイテンシーを削減するために採用されていることです。たとえば、ザイリンクスのAlveoアクセラレータカードは、CPUと比較して、データベース検索、ビデオ処理、およびデータ分析を大幅に高速化できます（図1 。

図。 1：Alveo U250アクセラレータカードは、ハイエンドCPUと比較してリアルタイム推論スループットを20倍向上させ、ハイエンドGPUなどの固定機能アクセラレータと比較して2ミリ秒未満のレイテンシを4倍以上削減します。（画像：ザイリンクス）

プログラマビリティ

AIの設計には多くの動的な変化が起こっており、その結果、ソフトウェアアルゴリズムは、AIチップを設計および製造するよりも速く変化しています。これは、そのような場合に固定機能デバイスになる傾向があるハードウェアアクセラレータの重要な課題を強調しています。

したがって、設計者が進化するニーズに適応できるようにするアクセラレータには、ある種のプログラム可能性が必要です。プログラマビリティ機能に伴う設計の柔軟性により、設計者はさまざまなAIワークロードとニューラルネットトポロジを処理することもできます。

Intel Corp.は、イスラエルを拠点とするプログラム可能な深層学習アクセラレータの開発者を約20億ドルで買収することで、AI設計のプログラム可能性に対するこの要求に応えました。トレーニング用のHabanaのGaudiプロセッサと推論用のGoyaプロセッサは、プログラムが簡単な開発環境を提供します（図2 。

図。 2：これは、開発プラットフォームとツールがGaudiトレーニングアクセラレータを使用してAIチップ設計を高速化する方法です。（画像：ハバナ）

エッジのAI

AI推論の市場は、AIトレーニングよりもはるかに大きいことが今では明らかです。そのため、業界では、トレーニングから推論に至るまで、さまざまなAIワークロードに最適化されたさまざまなチップが見られます。

これにより、マイクロコントローラー（MCU）が、他の方法では主に強力なSoCに関連付けられていたAI設計領域に組み込まれます。これらのMCUには、AIアクセラレータが組み込まれており、オブジェクト検出、顔とジェスチャーの認識、自然言語処理、予知保全などのアプリケーションで、リソースに制約のある産業用およびIoTエッジデバイスにサービスを提供します。

NXPセミコンダクターズがCortex-Mベースのマイクロコントローラー、クロスオーバーMCU、およびアプリケーションプロセッサーのリアルタイムサブシステムに統合しているArmのEthos U-55 microNPUMLアクセラレーターの例を見てみましょう。 Ethos U-55アクセラレータは、Cortex-Mコアと連携して動作し、小さなフットプリントを実現します。その高度な圧縮技術は、電力を節約し、MLモデルのサイズを大幅に削減して、以前は大規模なシステムでのみ実行されていたニューラルネットワークの実行を可能にします。

NXPのeIQML開発環境は、AI設計者にオープンソースの推論エンジンの選択肢を提供します。特定のアプリケーション要件に応じて、これらのAIアクセラレータは、CPU、GPU、DSP、NPUなどのさまざまなコンピューティング要素に組み込むことができます。

新しいマイクロチップMCUは、外部フラッシュからの安全なブート保護を追加します開発ボードは、IoTクラウドの安全な接続を簡素化します

埋め込み

センサー

クラウドコンピューティング

モノのインターネットテクノロジー