Microsoft、AttnGAN:テキストの説明を写真のようにリアルな画像に変える AI を発表
- Microsoft の AttnGAN は、プレーン テキストとキャプションから忠実度の高い画像を生成できます。
- このシステムは、画像を作成するジェネレーターとそのリアルさを評価するディスクリミネーターという 2 つのモデル アーキテクチャを採用しています。
- プロンプトを超えて文脈に関連した詳細を追加し、内部の「想像力」層を示します。
- 将来のアプリケーションとしては、スクリプトによる完全自動アニメーション制作が挙げられます。
これまでの取り組みによりテキストから画像への合成が改善されましたが、Microsoft の AttnGAN は、ラベル付き画像の広範なライブラリを活用して、簡潔なテキスト プロンプトからフォトリアリスティックな画像を生成することで、この分野を前進させています。
Microsoft Research で開発された AttnGAN は、プロンプト内の個々の単語を解析して、画像構築をガイドします。チームによると、このアプローチにより、従来の最先端モデルよりも約 3 倍高い画質が実現されます。
ボットの創造的なプロセス
赤い翼と短いくちばしを持つ青い鳥を描くように頼まれたと想像してみてください。大まかな輪郭から始めて、色や詳細を埋めていきます。 AttnGAN も同じロジックに従い、各単語を分析して詳細で一貫した画像を構築します。
ボットは、ガジェットから野生生物に至るまで、あらゆる主題をレンダリングでき、多くの場合、明示的に言及されていない文脈に応じて適切な背景要素を追加し、「想像上の」詳細を表現する能力を示します。
画像はピクセルごとにゼロから合成されるため、モデルは現実には存在しないシーンを作成できます。この生成タスクは本質的に、単に既存の写真にラベルを付けるよりも複雑です。
AttnGAN が画像を生成する方法
<オル>両方のモデルは共同でトレーニングされるため、ジェネレーターはディスクリミネーターのフィードバックから学習し、徐々に高い忠実度を達成できるようになります。
トレーニングには何千ものペアの写真キャプション データセットが含まれ、AttnGAN に特定の単語を視覚的なパターンにマッピングするよう教えました。たとえば、「象」という単語を入力すると、モデルは典型的な象の外観に一致する画像を生成します。
システムは複雑な文を個々の単語に分割し、各単語を画像の領域に位置合わせします。トレーニング中に、欠落している細部を補うための「人工常識」も学習し、現実的な構成を保証します。
この例では、プロンプトには鳥のみが記載されています。 AttnGAN は鳥を枝の上にインテリジェントに配置しました。これは、トレーニング データから学習した一般的な現実世界のコンテキストです。これは、状況に応じた知識を適用するモデルの能力を示しています。
arXiv:1711.10485 – AttnGAN について詳しく説明したマイクロソフトの研究論文。
湖に浮かぶ 2 階建てバスを描写するという課題に挑戦したとき、モデルはぼやけているものの、それがはっきりとわかる混合シーンを生成し、プロンプト内の相反する要素を調和させるための苦闘を強調しました。
パフォーマンスと使用例
AttnGAN は以前のベンチマークを上回り、COCO データセットの開始スコアで 170.25% の向上、CUB データセットで 14.14% の向上を達成しました。
潜在的な用途としては、インテリア デザイナー向けのスケッチ アシスタント、音声による写真の調整、さらに開発すれば脚本からの完全自動アニメーション制作などが挙げられます。
その他の AI アート ジェネレーター
アートと AI の融合に取り組んでいるのは Microsoft だけではありません。 Google の DeepDream は、2016 年に発表されたサイケデリックな画像を作成し、その AI は Tacotron2 などの音楽や音声合成を作成しました。Facebook と Nvidia は、車、船、動物、さらには合成有名人のアバターの生成モデルもリリースしました。
Google の人間のような音声 AI Tacotron2 について読む .
産業技術