工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Manufacturing Technology >> 産業技術

AIは、シンプルなテキストベースのレシピから完成した食事の画像を生成します

短い視覚的説明から画像を生成することは困難な作業であり、コンピュータビジョンで多くの用途があります。最近の研究では、Generative Adversarial Networks(GAN)が、低解像度で変動性の低い高品質でリアルな画像を効果的に合成できることが証明されています。

イスラエルのテルアビブ大学の研究チームによる最近の貢献は、この分野の研究を加速するのに役立ちます。彼らは、テキストベースの説明から画像を自動的に作成できるディープラーニングベースのモデルを構築しました。

特に、彼らは簡単なレシピから完成した食事の画像を生成するシステムを実証しました。これを行うために、システムは最先端のスタックGANと、料理レシピや食品画像のクロスモーダル埋め込みの学習を組み合わせて使用​​します。

条件付き生成的敵対的ネットワーク

基本的に、GANは、互いに競合するようにトレーニングされた2つのモデル(ジェネレーターとディスクリミネーター)で構成されます。ジェネレータは元のデータ分布と同様の画像を合成するように設計されていますが、識別器の仕事は元の画像と合成画像を区別することです。

この作業では、研究者は、ジェネレータとディスクリミネータの両方が特定の条件を考慮することを強制される条件付きGANを使用しました。彼らは、セマンティック正則化と非セマンティック正則化の2種類の埋め込み手法を提案しました。これらの手法は、次の3つのステップで構成されています。

  1. 材料の最初の埋め込みと調理方法。
  2. レシピ全体の複合ニューラル埋め込み。
  3. 高レベルの分類目的を使用した意味正則化損失の統合。

条件付きGANは、52,000のテキストベースのレシピとそれに対応する画像でトレーニングされています。 NVIDIA TITAN XGPUとCUDAディープニューラルネットワークライブラリを使用してトレーニングされています。トレーニングが完了すると、システムは長い説明からレシピがどのように見えるかを示す画像を作成しました(視覚的な情報は含まれていませんでした)。

参照:arXiv:1901.02404 |テルアビブ大学

人間の評価

ネットワークはレシピを入力として受け取り、テキストベースの食品の説明を最もよく反映する画像を(最初から)作成します。ここで本当に印象的なのは、システムがレシピのタイトルにアクセスできないことです。そうしないと、作業が簡単になりすぎて、レシピのテキストが非常に長くなります。これにより、人間でさえも作業が困難になります。

研究者の礼儀

合成された画像をより適切に評価するために、チームは30人に1〜5のスケールで最も魅力的な画像を判断するように依頼しました。彼らは各埋め込み手法によって生成された結果の画像の10の対応するペア(ランダムに選択)を提示しました。

結果は、非セマンティック正則化方法が、フォトリアリスティックな詳細を備えたより鮮明な画像を生成することにより、セマンティック正則化よりも優れていることを示しました。実際、実際の画像と合成画像を区別するのが非常に難しいと感じる人もいます。

読む:AIは、フォトリアリスティックな結果を得るために何百万もの芸術的な組み合わせを生成できます

さらに、どちらの埋め込み手法も「お粥のような」食べ物の写真(サラダ、スープ、米など)を作成することに成功しましたが、独特の形をした食べ物の写真(鶏肉、ハンバーガー、飲み物など)を作成するのに苦労しました。

>

産業技術

  1. 非常に単純な回路
  2. 非常にシンプルなコンピューター
  3. シンプルなオペアンプ
  4. シンプルなコンビネーションロック
  5. 10進数からの変換
  6. シンプルシリーズレゾナンス
  7. 合金の微視的亀裂の最初の3D画像
  8. 新しい機械は雪だるまから電気を生成します
  9. 簡単な CMMS ソフトウェアの入手
  10. メンテナンス ベンチマークの簡単なガイド
  11. Python から PLCnext AXC F 2152 PLC で変数を使用するためのシンプルな REST ベースのライブラリ