Microsoftは、170億のパラメータを使用して最大の言語生成モデルを構築します
- Microsoftは、170億個のパラメータを持つ世界最大のモデルであるTuring Natural LanguageGenerationを発表しました。
- テキストドキュメントの抽象的な要約、質問への直接の回答、および文章を完成させるための単語を生成します。
- モデルは、さまざまな状況で人間ができる限り正確、直接的、流暢に反応します。
大規模な深層学習言語モデル(GPT-2やBERTなど)は、インターネット上で利用可能なすべてのテキストでトレーニングされた数十億のパラメーターを備えており、ドキュメントの理解、会話型エージェント、質問など、さまざまな自然言語処理(NLP)タスクを強化しています。答える。
より多様で包括的な事前トレーニングデータを備えたより大きなモデルは、トレーニングサンプルが少なくてもパフォーマンスが向上することが観察されています。したがって、タスクごとに新しいモデルを個別にトレーニングするよりも、大規模な集中型モデルをトレーニングして、その機能をさまざまなタスク間で共有する方が効率的です。
この傾向に続いて、マイクロソフトの研究者は、170億のパラメータを持つ世界最大のモデルであるTuring Natural Language Generation(T-NLG)を導入しました。さまざまな言語モデリングベンチマークで、既存の最先端モデルよりも優れています。
T-NLGは、未完成の文章を完成させるための単語、入力されたドキュメントの要約、および質問への直接の回答を生成できます。ドキュメントからコンテンツを抽出して要約を作成したり質問に回答したりする他のNLPシステムとは異なり、新しい生成モデルは、さまざまな状況で人間ができる限り正確、直接的、流暢に応答します。
パッセージをコピーする代わりに、T-NLGは完全な文で質問に直接答えます。
T-NLGのトレーニング
1つのGPU(32 GBのメモリを使用している場合でも)は数十億のパラメーターを処理できないため、モデル自体を並列化するか、モデルをスライスに分割して複数のGPU間でトレーニングする必要があります。
この研究では、研究者はNVIDIA DGX-2ハードウェアセットアップ(GPU間の通信を高速化するため)とテンソルスライシング(4つのNVIDIA V100 GPU間でモデルを分割するため)を活用しました。 DeepSpeedライブラリとZeroオプティマイザーを使用して、より少ないGPUで非常に効率的にT-NLGをトレーニングすることができました。
標準タスクに対するパフォーマンス
次に、事前にトレーニングされたT-NLGのパフォーマンスを、LAMBADAの次の単語の予測精度(高いほど良い)とWikitext-103の困惑(低いほど良い)という2つの標準タスクで他の強力なトランスフォーマー言語モデルと比較しました。どちらの場合も、T-NLGのパフォーマンスは向上しました。
参照:Microsoft | GitHub
質問応答のパフォーマンス
文法の正しさや事実の正しさなどの品質をテストするために、研究者は人間のアノテーターに助けを求めました。彼らは新しいモデルをLSTMモデル(CopyNetと同様)と比較しました。
アクティブな要約のパフォーマンス
T-NLGは、さまざまなテキストドキュメント(Wordドキュメント、ブログ投稿、電子メール、PowerPointプレゼンテーション、さらにはExcelシートを含む)に対して人間のような抽象的な要約を書くことができますが、他の既存のNLPモデルと比較してどれほど優れています。
新しいモデルをより用途の広いものにして、あらゆる種類のテキストを要約できるようにするために、研究者は、公開されている要約データセットでモデルをトレーニングしました。次に、それをPEGASUSという名前の別の大規模なトランスベースの言語モデルおよびその前のバージョンと比較しました。今回、彼らは、自然言語処理で自動要約を評価するために使用される一連のメトリックであるROUGEスコアを報告しました。
アプリケーション
マイクロソフトは、会話型人工知能の飛躍的進歩を達成しました。今後数年間で、T-NLGをMicrosoft Officeスイートに統合します。これにより、メールやドキュメントを要約することでユーザーの時間を節約できるだけでなく、執筆支援を提供し、読者がコンテンツについて尋ねる可能性のある質問に答えることができます。
読む:Microsoftは完全に自動化されたDNAデータストレージを構築します
さらに、調査結果は、より正確で流暢なデジタルアシスタントとチャットボットへの道を開き、販売と顧客関係管理でビジネスを支援します。
産業技術
- データをどうすればいいですか?!
- マイクロソフトは、会話型AIの分野で新たなブレークスルーを達成しました
- (サイバーセキュリティ)で始まり心で終わる
- デジタルネットワークプラットフォーム:5段階の成熟度モデル
- WMSによるヘルスケアサプライチェーンの最適化
- ボーダレスデータでグローバルサプライチェーンを保護
- デジタルメンテナンスシステムによる容量不足のナビゲート
- Digital BuyerTechnologiesによるビジネスの将来性
- 潜在顧客への投資を最大限に活用するにはどうすればよいですか?
- SSI Schafferは、Coopに「世界最大の自動化ソリューションの1つ」を提供します
- サービスとしての機器とは何ですか? EaaSのメリット