マイクロソフトは、会話型AIの分野で新たなブレークスルーを達成しました
- Microsoftは、会話型人工知能の分野で新しいレコードを作成しています。
- 彼らは、さまざまな自然言語理解タスク全体でテキスト表現を学習するためのマルチタスクディープニューラルネットワークの拡張バージョンを開発しました。
堅牢で普遍的な言語表現は、さまざまな自然言語処理(NLP)タスクで適切な結果を得るのに重要です。アンサンブル学習は、モデルの一般化を強化するための最も効率的なアプローチの1つです。これまでのところ、開発者はこれを使用して、機械の読解から質問応答に至るまで、さまざまな自然言語理解(NLU)タスクで最先端の結果を取得してきました。
ただし、このようなアンサンブルモデルには、何百ものディープニューラルネットワーク(DNN)モデルが含まれており、実装にかなりの費用がかかります。 GPTやBERTなどの事前トレーニング済みモデルも、展開に非常に費用がかかります。たとえば、GPTは15億個のパラメータを持つ48個のトランス層で構成されていますが、BERTは3億4400万個のパラメータを持つ24個のトランス層で構成されています。
2019年、MicrosoftはMulti-Task DNNという名前の独自の自然言語処理(NLP)アルゴリズムを考案しました。彼らは現在、このアルゴリズムを更新して、印象的な結果を得ています。
知識蒸留の拡張
研究チームは、知識蒸留を使用して、いくつかのアンサンブルされたモデルを1つのマルチタスクDNNに圧縮しました。彼らは、アンサンブルモデルを[オフラインで]使用して、トレーニングデータセット内のすべてのタスクのソフトターゲットを生成しました。ハードターゲットと比較して、トレーニングサンプルごとにより役立つデータを提供します。
たとえば、「昨夜、ジョンと良いチャットをしました」という文を考えてみましょう。このフレーズの感情は否定的ではないでしょう。ただし、「昨夜、興味をそそる会話をしました」という文は、文脈に応じて否定的または肯定的になります。
参照:arXiv:1904.09482 | MicrosoftResearchブログ
研究者は、単一のMT-DNNをトレーニングするために、さまざまなタスクにわたって正しいターゲットとソフトターゲットの両方を使用しました。彼らは、cuDNNで高速化されたPyTorchディープラーニングフレームワークを利用して、NVIDIA Tesla V100GPUで新しいモデルをトレーニングおよびテストしました。
結果
彼らは蒸留されたMT-DNNを通常のMT-DNNおよびBERTと比較しました。結果は、幅広い言語現象のシステムパフォーマンスをテストするために使用される一般言語理解評価(GLUE)ベンチマークの全体的なスコアに関して、蒸留されたMT-DNNが両方のモデルを大幅に上回っていることを示しています。
GLUEベンチマークスコア
ベンチマークは、テキストの類似性、テキストの含意、感情分析、質問応答など、9つのNLUタスクで構成されています。データには、学術および百科事典のテキスト、ニュース、ソーシャルメディアなど、さまざまなソースから抽出された数百の文のペアが含まれています。
この調査で実施されたすべての実験は、蒸留されたMT-DNNを通じて学習された言語表現が、通常のMT-DNNおよびBERTよりも普遍的で堅牢であることを明確に示しています。
読む:Bosque:ループのないMicrosoftの新しいプログラミング言語
今後数年間で、研究者はマルチタスク学習のためにハードコレクトターゲットとソフトターゲットを組み合わせるより良い方法を見つけようとします。また、複雑なモデルをより単純なモデルに圧縮するのではなく、知識の蒸留を使用して、複雑さに関係なくモデルのパフォーマンスを向上させるためのより良い方法を模索します。
産業技術
- 新しいIT種の出現:IT / OTハイブリッドプロフェッショナル
- オフィスは閉鎖されていますか?マイクロソフトが新しいAIリサーチインキュベーターを発表
- GLTR:コンピューターで生成された言語を検出するための新しい方法
- Microsoftは、170億のパラメータを使用して最大の言語生成モデルを構築します
- Bosque:ループのないMicrosoftの新しいプログラミング言語
- 2021年に学ぶべき9つの新しいプログラミング言語
- グローバルロジスティクスでは、オーケストレーションが新しい可視性です
- 新しいEコマースショッピング行動の影響
- 5G、IoT、および新しいサプライチェーンの課題
- 新しいEコマースの展望は成功するマーケティングを再定義しています
- 「これがリアルタイムコマースのシーズンです