CVPR 2019 画像生成系を中心に33選

f:id:seishin55:20190703010026j:plain

CVPR2019の論文タイトルを一通り見て、画像生成系を中心にして身体と3Dやネットワーク探索、その他個人的に直近で使えそうなものをピックアップ。そのあたりをさらっと確認してまとめたものになります。★がついているものは後でもっとちゃんと読みたいものです。

CVPR 2019 open access

contents

★付きは個人的あとでまたみるもの。

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

簡単概要・メモ

セマンティックセグメンテーションのネットワーク探索。結果として効率的な探索でstate-of-the-artレベルの精度を達成。ただし、結果をみてみると、deeplab-v3-plusのようなモデルに匹敵はすれど勝ててはいない。今後の発展に注意。
こういうネットワーク探索が確立したら主流になる？直近は実用的にはまだコストが高い気がする。

リンク

AutoAugment: Learning Augmentation Strategies from Data

簡単概要・メモ

今まではdata augmentationを手動で頑張ってきたけど、自動でやりたいよねという発想。
ImageNet、CIFAR-10、CIFAR-100、SVHN、ImageNetの画像分類でSOTA。
得られたdata augmentationのポリシーは他のデータセットに転用できるとのこと。
ポリシーが他のデータセットに適用できるのであれば現実的にも有用そう。

リンク

opneaccess

Strand-accurate Multi-view Hair Capture

簡単概要・メモ

複数視点の頭部の写真を入力にして、毛髪を高精度に再現するというもの。結果がすごい綺麗にできている。
身体3D系で強いHao Liさんのところの研究グループが頭髪も色々研究していたと思うけど、こんなに綺麗ではなかった気がする。

リンク

★ Learning to Generate Synthetic Data via Compositing

簡単概要・メモ

バックグランドの画像とフォアグラウンドの画像を本物らしい画像に合成するネットワークを使い、data augmentationを行う。
生成されたサンプルは結構綺麗。
うまくGANの生成とobject detectionを合わせているところは面白いし、実際実用的にも使えそうな気がする。

リンク

Learning to Generate Synthetic Data via Compositing

★ Dense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decoders

簡単概要・メモ

画像から3Dの顔のモーフィング(顔のモデルを例えば表情によって変えるみたいに動かすこと)を行うタスク。
mesh convolutionを利用して、既存の3DMMと呼ばれるモデルよりコンパクトで高速なモデルを提案した。

リンク

★ Learning to Reconstruct People in Clothing from a Single RGB Camera

簡単概要・メモ

1枚のRGB画像から身体を3Dで再現できる。(1枚でもできるというだけで、1~8枚の少ない画像でできる)
結果がめっちゃ綺麗。推論は10秒以内くらいのスピード感。
3D x 身体で強強なPons-Mollさんがいるところも注目点。
この論文がarXivに上がったのが、(14 Mar 2019) https://arxiv.org/abs/1903.05885 で、DeepHuman: 3D Human Reconstruction from a Single Image (15 Mar 2019) https://arxiv.org/abs/1903.06473 という同様の論文が同時期に出ていて、3D x 身体のあつさを感じた。

リンク

Learning to Reconstruct People in Clothing from a Single RGB Camera

Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis

簡単概要・メモ

cGANで画像を生成するときに多様性がない問題を解決するための提案。
特徴としては、既存のモデルに簡単に応用できるシンプルさ。
潜在空間と生成画像の空間で距離が最大になるような制約項を追加する。

リンク

Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation

簡単概要・メモ

unsupervisedでかつmulti modalな(学習ペア不要で変化後の画像は複数種な)image-to-image変換のモデルであるMUNIT(CVPR2018)の進化版のイメージ。
既存の手法はネットワークが複雑になってしまっていたが、それを改良し、より高品質な画像を出力できるようにした。

リンク

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

簡単概要・メモ

image inpainting(画像中の欠損補完)のタスク。
既存の手法は欠損部分以外の一部をとってきたり、周囲のコンテキスト情報から補完したりするが、補完には視覚的・意味的な情報が必要であるということが考えられていない。
それを解決するネットワークを提案。特に、Attention Transfer Network(ATN)の部分で視覚的・意味的な情報を取得する部分が肝。
結果はめっちゃ綺麗で、画像生成一般の問題にどの程度汎用性があるかというところが気になる。

リンク

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
cvpaper.challenge
researchmm/PEN-Net-for-Inpainting: READMEのgifがわかりやすい

★ Example-Guided Style-Consistent Image Synthesis from Semantic Labeling

簡単概要・メモ

画像を画像ラベルに応じて変換させるようなタスク。
個人的には人物の姿勢にDensePoseを使っているところが気になるポイントだった。(今までだったらOpenPose的なkeypointでconditioningしてたはず。)
提案手法には大きく2つのポイントがあって、ひとつはスタイル部分を考慮するためのdiscriminatorを追加したこと、もうひとつは意味的部分を維持するためのロスの追加である。
個々のモジュール自体は目新しいものではない印象を受けるが、結果が他の手法と比べて綺麗にみえるので、そのあたりの実験が評価されたのでは？
個人的には、研究分野の近さからか、著者がどういう気持ちでこのモデルに至ったかがなんとなく分かる気がする。
比較手法はpix2pixHD、MUNIT、PairedMUNIT。

リンク

★ Progressive Pose Attention Transfer for Person Image Generation

簡単概要・メモ

pose transfer (画像中の人物の姿勢を変えるタスク)
Pose Attentional Transfer Blockというカスケード(いくつも連なった)構造のネットワークを提案。
画像と姿勢を別個のカスケードで流すところが面白い。
結果が結構いいなという印象、またgithubにある動画もインパクトある。

リンク

Progressive Pose Attention Transfer for Person Image Generation
tengteng95/Pose-Transfer: READMEに動画あり。

★ Textured Neural Avatars

簡単概要・メモ

任意の人物のテクスチャを確保しておいて、あとは自由に姿勢やカメラ位置を指定したレンダリングを生成できるモデルを提案。動画で内容は一発でわかる。Youtube
個人的にはこれと同じUV Textureベースのレンダリングやろうと思っていたので悔しい気持ち。
Textureの展開はDense Poseにならった展開。(今回の場合、そこまでMappingにセンシティブにならなくてもよさそうではある。)

リンク

Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation

簡単概要・メモ

unpairedなimage-to-imageのタスク。
ポイントとしては潜在変数のinterpolateができるようにしたこと。
multi-domain、multi-modalな変換もできるとのこと。

リンク

Spatial Fusion GAN for Image Synthesis

簡単概要・メモ

見た目 (表面的テクスチャみたいなこと)の合成と幾何的な空間的な合成を一緒にできる生成器。
既存手法では、CycleGANみたいに幾何的な部分が弱かったり、ST-GANのように幾何的な部分にフォーカスしているのに対して、提案手法は両方できるというところが主張ポイント。
どれくらい汎用性が高いのかが気になるところ。

リンク

Spatial Fusion GAN for Image Synthesis

STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing

簡単概要・メモ

attiribute editingのタスク。(画像に対してメガネをかけるというベクトルを渡して、メガネをかけた画像を生成するとか。)
既存手法では、属性の特徴の反映の効果と全体としての画像の品質にtrade-offがあった。
提案手法では元の画像(source domain)と変換先の画像(target domain)の属性ベクトルの差を使うことでこれを改善。

リンク

STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing

Dense Intrinsic Appearance Flow for Human Pose Transfer

簡単概要・メモ

姿勢変換のタスク。
3D appearance flow部分が面白い。
姿勢変換において(他のタスクもだけど)、3Dも考えましょうというのは当たり前になってきた感。
モデルについてもうまく設計できている印象がある。

リンク

Dense Intrinsic Appearance Flow for Human Pose Transfer

A Style-Based Generator Architecture for Generative Adversarial Networks

簡単概要・メモ

arXivにあがった時点でかなり話題になってためっちゃ綺麗に生成するGAN。
スタイル変換の技術を利用したGeneratorを採用。

リンク

SiCloPe: Silhouette-Based Clothed People

簡単概要・メモ

1枚の人物画像から3Dモデルを生成する研究。
画像から3Dの研究はいくつかあるが、SMPLのような身体モデルを使っていないところがポイント。
身体モデルで仮定を置くのは再現に限界がある部分もあるので、今後大局的な流れとしてどういう論文が出てくるか気になる。(データの少なさが効いてる気がするので、VRもあいまってデータがたくさん取れるとかだとまた変わる気もする。)

リンク

SiCloPe: Silhouette-Based Clothed People

DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

簡単概要・メモ

Fashion系の研究をするならお世話になるであろうDeep Fashionの次のバージョンDeep Fashion2。
服の領域を細かくアノテーションしてあるやつ気になる。

リンク

DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving

簡単概要・メモ

車のデータセット。
車をインスタンスレベルで細かくアノテーションしてあり、この領域で研究するなら非常に重宝しそう。

リンク

ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving

★ Photo Wake-Up: 3D Character Animation from a Single Photo

簡単概要・メモ

とにかく動画をみてほしい Youtube
画像1枚から人物・キャラクターを3Dにモデル化して動かす。
ARで動かす部分とかかなり衝撃的。
入力画像をMeshで生成して、あとは与えられたPoseに沿って動かす。

リンク

Photo Wake-Up: 3D Character Animation from a Single Photo

Art2Real: Unfolding the Reality of Artworks via Semantically-Aware Image-to-Image Translation

簡単概要・メモ

絵画からリアル画像への変換。絵画の画像はリアル画像と比べてデータが少ない問題に対応する手法。
既存手法よりは結果は綺麗。特に前よりはくっきりとした結果になっている。
ただ、割とCycle GANも綺麗。

リンク

StoryGAN: A Sequential Conditional GAN for Story Visualization

簡単概要・メモ

タイトル通り、ストーリーにあった画像を生成する。段落が与えられて、各文にあう画像を生成する。
タスクとして面白い。単発の画像生成でもなく、動画生成でもない。
シーン、キャラクターの一貫性を保った画像を生成できるようなエンコーダーを導入。
創作系のGANのひとつとして面白い。4コママンガ生成とかそういうところにも使えそうだし、アニメ生成とかそういう方向性の一歩目という感じ。

リンク

FineGAN: Unsupervised Hierarchical Disentanglement for Fine-Grained Object Generation and Discovery

簡単概要・メモ

物体を生成するときに背景、物体のマスク、物体の見た目（テクスチャ）のように階層敵意に生成していくモデルを提案。
階層的にすることで各階層ごとのdisentangleができる（物体の形状と見た目をそれぞれの別の特徴としてわけることができる）。
個人的に階層的に分けて生成するという考え方はすごく面白い（考えている人は結構いそう）。

リンク

FineGAN: Unsupervised Hierarchical Disentanglement for Fine-Grained Object Generation and Discovery

How to make a pizza: Learning a compositional layer-based GAN model

簡単概要・メモ

機械にピザの作り方をGANを使って教えたいらしい。
具材をどのように追加・除去するか/トッピングの順番を学習。
将来的にはピザではない食べ物とかファッション（どういうレイヤーで来ている）に応用させたいみたい。

リンク

★ TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation

簡単概要・メモ

unsupervisedなimage-to-imageのタスク。
Cycle GANをはじめとしたこれまでの研究では、幾何的な変換が難しいことは知られていた。（テクスチャを変えるだけなら得意。変換する物体の形が違うとうまくいかない）
Appearance Transformerに加えて、幾何的な部分も考慮したGeometry Transformerも明示的に加えて変換を可能にしている。
Appearance Transformerにおけるサンプルを変えることで、multi-modalな出力にも対応可能。

リンク

TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation

★ 3D Guided Fine-Grained Face Manipulation

簡単概要・メモ

人物の表情の変換において、一度2Dのテクスチャに起こしてからテクスチャを変換し、それを3Dに戻す機構を導入した。

リンク

3D Guided Fine-Grained Face Manipulation

WarpGAN: Automatic Caricature Generation

簡単概要・メモ

入力の人物画像から風刺画（ここでは、人の顔の特徴的な部分を過剰に特徴的に描くあれ）を生成する。(論文の絵をみてほしい)
人物自体は維持したまま、誇張具合を変える。
ただ、綺麗に生成するとかではなくて、創作の領域に入ってきているところが面白い。

リンク

WarpGAN: Automatic Caricature Generation

HoloPose: Holistic 3D Human Reconstruction In-The-Wild

簡単概要・メモ

画像から3Dモデルを構築する研究。
結果がよくみえる。Youtube
著者はDensePoseの人。(所属変わった？)

リンク

HoloPose: Holistic 3D Human Reconstruction In-The-Wild

★ Coordinate-based Texture Inpainting for Pose-Guided Human Image Generation

簡単概要・メモ

人物の姿勢変換のタスクにUV Textureを利用した研究。
「Textured Neural Avatars」とは違う展開フォーマットを利用している。(テクスチャの生成を挟む場合は展開フォーマットを変えている論文が多い気がする。)
論文的にはちゃんと他のデータセット(顔)でやるというのは参考になる。

リンク

Texture Mixer: A Network for Controllable Synthesis and Interpolation of Texture

簡単概要・メモ

テクスチャをいい感じにinterpolateする手法。
2つのテクスチャを自然な感じに結合できる。
reconstructionとgenerationを分けて学習している。

リンク

★ Unsupervised Part-Based Disentangling of Object Shape and Appearance

簡単概要・メモ

教師なしで、特に身体パーツの形状(shape)と見た目(appearance)の特徴を獲得する。
Autoencoder的なネットワーク構造となっている。
結果がかなり綺麗で、こんなうまくいくの？という印象。

リンク

Unsupervised Part-Based Disentangling of Object Shape and Appearance

contents

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ Learning to Generate Synthetic Data via Compositing

簡単概要・メモ

リンク

★ Dense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decoders

簡単概要・メモ

リンク

★ Learning to Reconstruct People in Clothing from a Single RGB Camera

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ Example-Guided Style-Consistent Image Synthesis from Semantic Labeling

簡単概要・メモ

リンク

★ Progressive Pose Attention Transfer for Person Image Generation

簡単概要・メモ

リンク

★ Textured Neural Avatars

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ Photo Wake-Up: 3D Character Animation from a Single Photo

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation

簡単概要・メモ

リンク

★ 3D Guided Fine-Grained Face Manipulation

簡単概要・メモ

リンク

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ Coordinate-based Texture Inpainting for Pose-Guided Human Image Generation

簡単概要・メモ

リンク

簡単概要・メモ

リンク

★ Unsupervised Part-Based Disentangling of Object Shape and Appearance

簡単概要・メモ

リンク