工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Manufacturing Technology >> 産業技術

GLTR:コンピューターで生成された言語を検出するための新しい方法

この10年間で、自然言語処理コミュニティは、ますます大きく、よりスマートな言語モデルの成長を目の当たりにしてきました。

人工知能と人間の自然言語を備えたディープニューラルネットワークの時代に、ハーバード大学とIBM Researchの研究者は、コンピューターで生成されたテキストを検出するための統計的手法を開発しました。

彼らは、機械によって生成された自然な人間の言語とテキストを人間の音声から区別するためのインタラクティブなツール(公開されている)を構築しました。目的は、人々にもっと多くの情報を提供して、何が偽物で何が本物かについて情報に基づいた決定を下せるようにすることです。

人工知能モデルは通常、何百万ものテキスト(ワールドワイドウェブから取得)でトレーニングされます。彼らは、人間の言語を模倣するために互いに続くことが最も多い単語を予測します。たとえば、「あなた」という単語の後には、静的に「だった」、「持っている」、「ある」という単語が続く可能性が最も高いです。

この方法論を使用して、研究者は、[テキストのエラーにフラグを立てるのではなく]予測しすぎるテキストを検出するツールを構築しました。 AIと人間の両方が協力して、機械で生成された言語を識別することができます。

どのように機能しますか?

ジャイアントランゲージモデルテストルーム(GLTR)という名前の新しい手法は、Webサイトからの約4500万のテキストでトレーニングされたモデルに基づいています。公開されている最大のモデルの1つであるGPT-2にアクセスできます。

したがって、GPT-2が各位置で(任意のテキスト入力に対して)予測したものを観察し、GPT-2および他の多くのモデルに対して効率的に実行できます。

GLTRは、自動生成されたテキストを識別するための視覚的なフォレンジックツールを表します。テキスト全体の情報を集約した3つの異なるヒストグラムが表示されます。

参照:ハーバードガゼット| GitHub

ツールボックスに段落を入力するだけで、4つの異なる色ですべての単語が強調表示され、それぞれが続く単語のコンテキストでの単語の予測可能性を示します。紫は、単語が予測できないことを意味します。赤、わずかに予測可能。黄色、適度に予測可能。緑は段落内の予測可能な単語を示しています。

これは、マシンで生成された段落がどのように見えるかです–

最初のヒストグラムは、各カテゴリの単語が段落にいくつ表示されるかを示しています。 2つ目は、最も高い予測単語と次の単語の確率の比率を示しています。 3番目のヒストグラムは、予測エントロピー全体の分布を表しています。

もちろん、人間が書いたテキスト、特に研究論文や学術テキストの不確実性は高くなります。これは、(EAGLE銀河に関する)研究論文の要約がどのように見えるかです–

読む:人工知能は神経活動から音声を生成できる

研究チームはまた、コンピューターサイエンスの卒業生たちと一緒に新しいツールをテストしました。生徒はコンピューターで生成された段落の50%を検出できましたが、このツールの助けを借りて、72%を識別しました。システムを少しトレーニングすれば、パーセンテージはさらに良くなる可能性があります。


産業技術

  1. 新しいAIは、ニュースソースが正確であるか政治的に偏っているのかを検出できます
  2. 量子コンピュータのパフォーマンスを向上させる新しい方法
  3. 研究者は、オブジェクトを非表示にする新しい方法を提案しました
  4. 新しいシステムは、電気機械装置の故障を発生前に検出できます
  5. マイクロソフトは、会話型AIの分野で新たなブレークスルーを達成しました
  6. 新しいホログラフィック手法は、光の届く範囲を超えてオブジェクトをキャプチャします
  7. 科学者は、画面をより明るく効率的にするための新しい方法を開発します
  8. 新しい方法で、あらゆるオブジェクトをデータストレージユニットに変えることができます
  9. 研究者はコロナウイルスを検出するためのAIを開発します
  10. Bosque:ループのないMicrosoftの新しいプログラミング言語
  11. 2021年に学ぶべき9つの新しいプログラミング言語