AIは、シンプルなテキストベースのレシピから完成した食事の画像を生成します
- 新しいディープラーニングベースのシステムは、長いテキストベースの説明から画像を自動的に生成できます。
- 研究者は、レシピを入力として受け取り、最初から画像を作成するネットワークを実証しました。
短い視覚的説明から画像を生成することは困難な作業であり、コンピュータビジョンで多くの用途があります。最近の研究では、Generative Adversarial Networks(GAN)が、低解像度で変動性の低い高品質でリアルな画像を効果的に合成できることが証明されています。
イスラエルのテルアビブ大学の研究チームによる最近の貢献は、この分野の研究を加速するのに役立ちます。彼らは、テキストベースの説明から画像を自動的に作成できるディープラーニングベースのモデルを構築しました。
特に、彼らは簡単なレシピから完成した食事の画像を生成するシステムを実証しました。これを行うために、システムは最先端のスタックGANと、料理レシピや食品画像のクロスモーダル埋め込みの学習を組み合わせて使用します。
条件付き生成的敵対的ネットワーク
基本的に、GANは、互いに競合するようにトレーニングされた2つのモデル(ジェネレーターとディスクリミネーター)で構成されます。ジェネレータは元のデータ分布と同様の画像を合成するように設計されていますが、識別器の仕事は元の画像と合成画像を区別することです。
この作業では、研究者は、ジェネレータとディスクリミネータの両方が特定の条件を考慮することを強制される条件付きGANを使用しました。彼らは、セマンティック正則化と非セマンティック正則化の2種類の埋め込み手法を提案しました。これらの手法は、次の3つのステップで構成されています。
- 材料の最初の埋め込みと調理方法。
- レシピ全体の複合ニューラル埋め込み。
- 高レベルの分類目的を使用した意味正則化損失の統合。
条件付きGANは、52,000のテキストベースのレシピとそれに対応する画像でトレーニングされています。 NVIDIA TITAN XGPUとCUDAディープニューラルネットワークライブラリを使用してトレーニングされています。トレーニングが完了すると、システムは長い説明からレシピがどのように見えるかを示す画像を作成しました(視覚的な情報は含まれていませんでした)。
参照:arXiv:1901.02404 |テルアビブ大学
人間の評価
ネットワークはレシピを入力として受け取り、テキストベースの食品の説明を最もよく反映する画像を(最初から)作成します。ここで本当に印象的なのは、システムがレシピのタイトルにアクセスできないことです。そうしないと、作業が簡単になりすぎて、レシピのテキストが非常に長くなります。これにより、人間でさえも作業が困難になります。
研究者の礼儀
合成された画像をより適切に評価するために、チームは30人に1〜5のスケールで最も魅力的な画像を判断するように依頼しました。彼らは各埋め込み手法によって生成された結果の画像の10の対応するペア(ランダムに選択)を提示しました。
結果は、非セマンティック正則化方法が、フォトリアリスティックな詳細を備えたより鮮明な画像を生成することにより、セマンティック正則化よりも優れていることを示しました。実際、実際の画像と合成画像を区別するのが非常に難しいと感じる人もいます。
読む:AIは、フォトリアリスティックな結果を得るために何百万もの芸術的な組み合わせを生成できます
さらに、どちらの埋め込み手法も「お粥のような」食べ物の写真(サラダ、スープ、米など)を作成することに成功しましたが、独特の形をした食べ物の写真(鶏肉、ハンバーガー、飲み物など)を作成するのに苦労しました。
>産業技術