Ready/Valid ハンドシェイクを使用してブロック RAM に AXI FIFO を作成する方法

AXI モジュールにインターフェイスするためのロジックを初めて作成しなければならなかったとき、AXI インターフェイスの特殊性に少し悩まされました。通常のビジー/有効、フル/有効、またはエンプティ/有効の制御信号の代わりに、AXI インターフェイスは「ready」と「valid」という名前の 2 つの制御信号を使用します。私の欲求不満はすぐに畏敬の念に変わりました.

AXI インターフェイスには、追加の制御信号を使用しないビルトインフロー制御があります。ルールは簡単に理解できますが、FPGA に AXI インターフェイスを実装する際に考慮しなければならない落とし穴がいくつかあります。この記事では、VHDL で AXI FIFO を作成する方法について説明します。

AXI が 1 サイクル遅延の問題を解決

オーバーリードとオーバーライトの防止は、データストリームインターフェイスを作成する際の一般的な問題です。問題は、2 つのクロックロジックモジュールが通信する場合、各モジュールは 1 クロックサイクルの遅延で対応するモジュールからの出力しか読み取れないことです。

上の画像は、write enable/full を使用する FIFO に書き込むシーケンシャルモジュールのタイミング図を示しています。シグナリング方式。インターフェイスモジュールは、wr_en をアサートすることによって FIFO にデータを書き込みます。信号。 FIFO は full をアサートします別のデータ要素用のスペースがない場合に信号を送信し、データソースに書き込みを停止するよう促します。

残念ながら、インターフェイスモジュールは、クロックロジックのみを使用している限り、時間内に停止する方法がありません。 FIFO は full を発生させますクロックの立ち上がりエッジで正確にフラグを立てます。同時に、インターフェイスモジュールは次のデータ要素の書き込みを試みます。 full をサンプリングして反応することはできません手遅れになる前に信号を送ってください。

1 つの解決策は、追加の almost_empty を含めることです。これは、VHDL チュートリアルでリングバッファー FIFO を作成する方法で行いました。追加のシグナルは empty の前にありますこれにより、インターフェイスモジュールに反応する時間が与えられます。

準備完了/有効な握手

AXI プロトコルは、各方向に 2 つの制御信号のみを使用してフロー制御を実装します。そのうちの 1 つは ready と呼ばれます。そして他の valid . ready 信号は受信機によって制御され、論理 '1' この信号の値は、受信側が新しいデータ項目を受け入れる準備ができていることを意味します。 valid 一方、信号は送信者によって制御されます。送信者は valid を設定する必要があります '1' までデータバス上に提示されたデータがサンプリングに有効な場合。

重要な部分は次のとおりです: ready の両方の場合にのみデータ転送が行われますと valid '1' です同じクロックサイクルで。受信者は、データを受け入れる準備ができたときに通知し、送信者は、送信するものがあれば、単にデータをそこに置きます.転送は、送信者が送信する準備ができており、受信者が受信する準備ができている場合に、両者が同意したときに発生します。

上記の波形は、1 つのデータ項目のトランザクションの例を示しています。サンプリングはクロックロジックの場合と同様に、立ち上がりクロックエッジで発生します。

実装

VHDL で AXI FIFO をインプリメントするには、さまざまな方法があります。シフトレジスタの場合もありますが、ブロック RAM に FIFO を作成する最も簡単な方法であるため、リングバッファー構造を使用します。変数とシグナルを使用して 1 つの巨大なプロセスですべてを作成することも、機能を複数のプロセスに分割することもできます。

この実装では、更新が必要なほとんどの信号に対して個別のプロセスを使用します。同期が必要なプロセスのみがクロックに敏感であり、他のプロセスは組み合わせロジックを使用します。

実体

エンティティ宣言には、入力ワードと出力ワードの幅の設定に使用される汎用ポートと、RAM にスペースを予約するスロットの数が含まれています。 FIFO の容量は、RAM の深さから 1 を引いた値に等しくなります。 FIFO がいっぱいか空かを区別するために、1 つのスロットは常に空に保たれます。

entity axi_fifo is
  generic (
    ram_width : natural;
    ram_depth : natural
  );
  port (
    clk : in std_logic;
    rst : in std_logic;

    -- AXI input interface
    in_ready : out std_logic;
    in_valid : in std_logic;
    in_data : in std_logic_vector(ram_width - 1 downto 0);

    -- AXI output interface
    out_ready : in std_logic;
    out_valid : out std_logic;
    out_data : out std_logic_vector(ram_width - 1 downto 0)
  );
end axi_fifo;

ポート宣言の最初の 2 つの信号は、クロックおよびリセット入力です。この実装は同期リセットを使用し、クロックの立ち上がりエッジに敏感です。

Ready/Valid 制御信号と汎用幅の入力データ信号を使用する AXI スタイルの入力インターフェイスがあります。最後に、入力と同様の信号を持つ AXI 出力インターフェイスがありますが、方向が逆になっています。入力および出力インターフェイスに属する信号には、in_ という接頭辞が付きますまたは out_ .

1 つの AXI FIFO からの出力を別の FIFO の入力に直接接続することができ、インターフェイスは完全に適合します。ただし、それらを積み重ねるよりも良い解決策は、 ram_depth を増やすことですより大きな FIFO が必要な場合はジェネリック。

シグナル宣言

VHDL ファイルの宣言領域の最初の 2 つのステートメントは、RAM タイプとその信号を宣言します。 RAM は、汎用入力から動的にサイズ調整されます。

-- The FIFO is full when the RAM contains ram_depth - 1 elements
type ram_type is array (0 to ram_depth - 1)
  of std_logic_vector(in_data'range);
signal ram : ram_type;

コードの 2 番目のブロックは、新しい整数サブタイプとそれからの 4 つのシグナルを宣言します。 index_type RAM の深さを正確に表すサイズになっています。 head 信号は常に、次の書き込み操作で使用される RAM スロットを示します。 tail 信号は、次の読み取り操作でアクセスされるスロットを指します。 count の値信号は常に FIFO に現在格納されている要素の数と等しく、count_p1 1 クロックサイクル遅れた同じ信号のコピーです。

-- Newest element at head, oldest element at tail
subtype index_type is natural range ram_type'range;
signal head : index_type;
signal tail : index_type;
signal count : index_type;
signal count_p1 : index_type;

in_ready_i という名前の 2 つのシグナルが続きます。と out_valid_i .これらはエンティティ出力 in_ready の単なるコピーですと out_valid . _i postfix は internal を意味します、それは私のコーディングスタイルの一部です。

-- Internal versions of entity signals with mode "out"
signal in_ready_i : std_logic;
signal out_valid_i : std_logic;

最後に、同時の読み取りと書き込みを示すために使用されるシグナルを宣言します。その目的については、この記事の後半で説明します。

-- True the clock cycle after a simultaneous read and write
signal read_while_write_p1 : std_logic;

サブプログラム

シグナルの後に、カスタムの index_type をインクリメントする関数を宣言します . next_index 関数は read を調べますと valid パラメータを使用して、進行中の読み取りまたは読み取り/書き込みトランザクションがあるかどうかを判断します。その場合、インデックスはインクリメントまたはラップされます。そうでない場合は、変更されていないインデックス値が返されます。

function next_index(
  index : index_type;
  ready : std_logic;
  valid : std_logic) return index_type is
begin
  if ready = '1' and valid = '1' then
    if index = index_type'high then
      return index_type'low;
    else
      return index + 1;
    end if;
  end if;

  return index;
end function;

繰り返し入力する手間を省くために、head を更新するロジックを作成します。と tail 2 つの同一のプロセスではなく、プロシージャ内のシグナル。 update_index 手順は、index_type の信号であるクロック信号とリセット信号を受け取ります、 ready 信号、および valid 入力としてのシグナル。

procedure index_proc(
  signal clk : in std_logic;
  signal rst : in std_logic;
  signal index : inout index_type;
  signal ready : in std_logic;
  signal valid : in std_logic) is
begin
    if rising_edge(clk) then
      if rst = '1' then
        index <= index_type'low;
      else
        index <= next_index(index, ready, valid);
      end if;
    end if;
end procedure;

この完全同期プロセスは next_index を使用します index を更新する関数モジュールがリセットされていないときに信号を送信します。リセットすると、index index_type の仕組みにより、信号は常に 0 である、表現可能な最小値に設定されます。と ram_type 宣言されています。リセット値として 0 を使用することもできましたが、ハードコーディングをできるだけ避けるようにしています.

内部信号を出力にコピー

これら 2 つの同時実行ステートメントは、出力信号の内部バージョンを実際の出力にコピーします。 VHDL ではモード out でエンティティシグナルを読み取ることができないため、内部コピーを操作する必要があります。モジュールの内部。別の方法として、in_ready を宣言することもできます。と out_valid モード inout でですが、ほとんどの企業のコーディング標準では inout の使用が制限されていますエンティティシグナル。

in_ready <= in_ready_i;
out_valid <= out_valid_i;

頭と尻尾を更新

index_proc についてはすでに説明しました head を更新するために使用される手順と tail 信号。適切なシグナルをこのサブプログラムのパラメーターにマッピングすることにより、2 つの同一のプロセス (FIFO の入力を制御するためのプロセスと出力を制御するためのプロセス) に相当するものを取得します。

-- Update head index on write
PROC_HEAD : index_proc(clk, rst, head, in_ready_i, in_valid);

-- Update tail index on read
PROC_TAIL : index_proc(clk, rst, tail, out_ready, out_valid_i);

head そして tail リセットロジックによって同じ値に設定されると、FIFO は最初は空になります。これがこのリングバッファの仕組みです。両方が同じインデックスを指している場合、FIFO が空であることを意味します。

ブロック RAM を推測

ほとんどの FPGA アーキテクチャでは、ブロック RAM プリミティブは完全同期コンポーネントです。これは、合成ツールで VHDL コードからブロック RAM を推測する場合は、クロックプロセス内に読み出しポートと書き込みポートを配置する必要があることを意味します。また、ブロック RAM に関連付けられたリセット値がない場合もあります。

PROC_RAM : process(clk)
begin
  if rising_edge(clk) then
    ram(head) <= in_data;
    out_data <= ram(next_index(tail, out_ready, out_valid_i));
  end if;
end process;

読み取り可能はありませんまたは書き込み可能 ここでは、AXI には遅すぎます。代わりに、head が指す RAM スロットに継続的に書き込みます。索引。次に、書き込みトランザクションが発生したと判断したら、単純に head を進めます。書き込まれた値をロックします。

同様に、out_data クロックサイクルごとに更新されます。 tail 読み取りが発生すると、ポインターは単に次のスロットに移動します。 next_index に注意してください関数は、読み取りポートのアドレスを計算するために使用されます。読み取り後に RAM が十分に速く反応し、次の値の出力を開始するようにするために、これを行う必要があります。

FIFO 内の要素数をカウントする

RAM 内の要素数を数えるには、単純に head を引くだけです。 tail から . head の場合 RAM のスロットの合計数だけオフセットする必要があります。 ram_depth を通じてこの情報にアクセスできます汎用入力からの定数。

PROC_COUNT : process(head, tail)
begin
  if head < tail then
    count <= head - tail + ram_depth;
  else
    count <= head - tail;
  end if;
end process;

count の以前の値も追跡する必要があります。信号。以下のプロセスは、1 クロックサイクル遅れたバージョンを作成します。 _p1 postfix は、これを示すための命名規則です。

PROC_COUNT_P1 : process(clk)
begin
  if rising_edge(clk) then
    if rst = '1' then
      count_p1 <= 0;
    else
      count_p1 <= count;
    end if;
  end if;
end process;

ready を更新します出力

in_ready 信号は '1' でなければなりませんこのモジュールが別のデータ項目を受け入れる準備ができたとき。これは、FIFO がいっぱいでない限り当てはまるはずであり、まさにこのプロセスのロジックが示していることです。

PROC_IN_READY : process(count)
begin
  if count < ram_depth - 1 then
    in_ready_i <= '1';
  else
    in_ready_i <= '0';
  end if;
end process;

読み取りと書き込みの同時検出

次のセクションで説明する特殊なケースのため、同時の読み取り操作と書き込み操作を識別できる必要があります。同じクロックサイクル中に有効な読み取りおよび書き込みトランザクションが発生するたびに、このプロセスは read_while_write_p1 を設定します。 '1' への合図次のクロックサイクルで。

PROC_READ_WHILE_WRITE_P1: process(clk)
begin
  if rising_edge(clk) then
    if rst = '1' then
      read_while_write_p1 <= '0';

    else
      read_while_write_p1 <= '0';
      if in_ready_i = '1' and in_valid = '1' and
        out_ready = '1' and out_valid_i = '1' then
        read_while_write_p1 <= '1';
      end if;
    end if;
  end if;
end process;

有効を更新出力

out_valid 信号は、データが out_data で提示されたことを下流のモジュールに示します有効で、いつでもサンプリングできます。 out_data 信号は RAM 出力から直接来ます。 out_valid の実装ブロック RAM の入力と出力の間に余分なクロックサイクル遅延があるため、この信号は少しトリッキーです。

ロジックは組み合わせプロセスで実装されるため、変化する入力信号に遅延なく反応できます。プロセスの最初の行は、out_valid を設定するデフォルト値です。 '1' への合図 .後続の 2 つの If ステートメントのいずれもトリガーされない場合、これが一般的な値になります。

PROC_OUT_VALID : process(count, count_p1, read_while_write_p1)
begin
  out_valid_i <= '1';

  -- If the RAM is empty or was empty in the prev cycle
  if count = 0 or count_p1 = 0 then
    out_valid_i <= '0';
  end if;

  -- If simultaneous read and write when almost empty
  if count = 1 and read_while_write_p1 = '1' then
    out_valid_i <= '0';
  end if;

end process;

最初の If ステートメントは、FIFO が空であるか、前のクロックサイクルで空であったかをチェックします。明らかに、FIFO に 0 要素がある場合、FIFO は空ですが、前のクロックサイクルでの FIFO のフィルレベルも調べる必要があります。

以下の波形を考えてみましょう。 count で示されるように、FIFO は最初は空です。信号は 0 です .次に、3 番目のクロックサイクルで書き込みが発生します。 RAM スロット 0 は次のクロックサイクルで更新されますが、out_data にデータが表示されるまでにさらに 1 サイクルかかります。出力。 or count_p1 = 0 の目的ステートメントは out_valid であることを確認することです '0' のまま値が RAM を介して伝播している間 (赤丸で囲んだ部分)。

最後の If ステートメントは、別のまれなケースを防ぎます。現在および以前の FIFO フィルレベルをチェックすることにより、空書き込みの特殊なケースを処理する方法について説明しました。しかし、count のときに同時読み取りと書き込みを実行するとどうなりますか? 既に 1 です ?

以下の波形はそのような状況を示しています。最初に、FIFO には 1 つのデータ項目 D0 が存在します。しばらくそこにあったので、両方とも count と count_p1 0 です .次に、3 番目のクロックサイクルで読み取りと書き込みが同時に行われます。 1 つのアイテムが FIFO を離れ、新しいアイテムが FIFO に入る場合、カウンターは変更されません。

読み取りおよび書き込みの時点で、RAM には出力可能な次の値がありません。これは、塗りつぶしレベルが 1 よりも高い場合に発生する可能性があるためです。入力値が出力に現れるまで、2 クロックサイクル待つ必要があります。追加情報がなければ、このコーナーケースと out_valid の値を検出することは不可能です。次のクロックサイクル (赤一色でマーク) では、誤って '1' に設定されます。 .

read_while_write_p1 が必要なのはそのためです。信号。同時読み取りと書き込みがあったことを検出し、 out_valid を設定することでこれを考慮することができます '0' へ

Vivado での合成

ザイリンクス Vivado でスタンドアロンモジュールとしてデザインをインプリメントするには、最初にジェネリック入力に値を指定する必要があります。これは、Settings を使用して Vivado で実現できます。 → 一般 → ジェネリック/パラメータ 下の画像に示すように、メニュー。

ジェネリック値は、ターゲットデバイスであるザイリンクス Zynq アーキテクチャの RAMB36E1 プリミティブと一致するように選択されています。実装後のリソースの使用状況を下の図に示します。 AXI FIFO は 1 つのブロック RAM と少数の LUT およびフリップフロップを使用します。

AXI は準備完了/有効以上のものです

AXI は Advanced eXtensible Interface の略で、ARM の Advanced Microcontroller Bus Architecture (AMBA) 標準の一部です。 AXI 標準は、読み取り/有効なハンドシェイク以上のものです。 AXI について詳しく知りたい場合は、以下のリソースをさらに読むことをお勧めします。