工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Manufacturing Technology >> 産業技術

Microsoft、AttnGAN:テキストの説明を写真のようにリアルな画像に変える AI を発表

これまでの取り組みによりテキストから画像への合成が改善されましたが、Microsoft の AttnGAN は、ラベル付き画像の広範なライブラリを活用して、簡潔なテキスト プロンプトからフォトリアリスティックな画像を生成することで、この分野を前進させています。

Microsoft Research で開発された AttnGAN は、プロンプト内の個々の単語を解析して、画像構築をガイドします。チームによると、このアプローチにより、従来の最先端モデルよりも約 3 倍高い画質が実現されます。

ボットの創造的なプロセス

赤い翼と短いくちばしを持つ青い鳥を描くように頼まれたと想像してみてください。大まかな輪郭から始めて、色や詳細を埋めていきます。 AttnGAN も同じロジックに従い、各単語を分析して詳細で一貫した画像を構築します。

ボットは、ガジェットから野生生物に至るまで、あらゆる主題をレンダリングでき、多くの場合、明示的に言及されていない文脈に応じて適切な背景要素を追加し、「想像上の」詳細を表現する能力を示します。

画像はピクセルごとにゼロから合成されるため、モデルは現実には存在しないシーンを作成できます。この生成タスクは本質的に、単に既存の写真にラベルを付けるよりも複雑です。

AttnGAN が画像を生成する方法

<オル>
  • ジェネレータ: テキストの説明に基づいて画像を作成します。
  • 識別子: 生成された画像の信頼性を説明に照らして評価します。
  • 両方のモデルは共同でトレーニングされるため、ジェネレーターはディスクリミネーターのフィードバックから学習し、徐々に高い忠実度を達成できるようになります。

    トレーニングには何千ものペアの写真キャプション データセットが含まれ、AttnGAN に特定の単語を視覚的なパターンにマッピングするよう教えました。たとえば、「象」という単語を入力すると、モデルは典型的な象の外観に一致する画像を生成します。

    システムは複雑な文を個々の単語に分割し、各単語を画像の領域に位置合わせします。トレーニング中に、欠落している細部を補うための「人工常識」も学習し、現実的な構成を保証します。

    Microsoft、AttnGAN:テキストの説明を写真のようにリアルな画像に変える AI を発表

    この例では、プロンプトには鳥のみが記載されています。 AttnGAN は鳥を枝の上にインテリジェントに配置しました。これは、トレーニング データから学習した一般的な現実世界のコンテキストです。これは、状況に応じた知識を適用するモデルの能力を示しています。

    arXiv:1711.10485 – AttnGAN について詳しく説明したマイクロソフトの研究論文。

    Microsoft、AttnGAN:テキストの説明を写真のようにリアルな画像に変える AI を発表

    湖に浮かぶ 2 階建てバスを描写するという課題に挑戦したとき、モデルはぼやけているものの、それがはっきりとわかる混合シーンを生成し、プロンプト内の相反する要素を調和させるための苦闘を強調しました。

    パフォーマンスと使用例

    AttnGAN は以前のベンチマークを上回り、COCO データセットの開始スコアで 170.25% の向上、CUB データセットで 14.14% の向上を達成しました。

    潜在的な用途としては、インテリア デザイナー向けのスケッチ アシスタント、音声による写真の調整、さらに開発すれば脚本からの完全自動アニメーション制作などが挙げられます。

    その他の AI アート ジェネレーター

    アートと AI の融合に取り組んでいるのは Microsoft だけではありません。 Google の DeepDream は、2016 年に発表されたサイケデリックな画像を作成し、その AI は Tacotron2 などの音楽や音声合成を作成しました。Facebook と Nvidia は、車、船、動物、さらには合成有名人のアバターの生成モデルもリリースしました。

    Google の人間のような音声 AI Tacotron2 について読む .


    産業技術

    1. CMMSソフトウェアを使用した2021年の新年の抱負
    2. ロジスティクスの悪夢に対処する時はまだ来ています
    3. アルミニウムガス溶接とは何ですか?-完全ガイド
    4. はすば歯車101:種類、製造、利点、用途
    5. E3.series検索にブール式を使用する方法
    6. 違い:火災検知、保護、抑制?
    7. さまざまなタイプの研磨面仕上げの比較
    8. TTL と rs232 - 違い、長所、短所
    9. クロスヘッドタイプエンジンのメリット
    10. プリント回路基板アセンブリの最も包括的なガイド
    11. アルミニウムと標準PCB