A Style-Based Generator Architecture for Generative Adversarial Networks

Abstract

interpolation quality와 disentanglement를 정량화 하기위해 어떤 generator architecture에도 적용가능한 2개의 자동화된 방법을 제안했다.
새로운 아키텍처는 자동으로 학습되고 높은 수준의 속성(포즈와 인간의 얼굴을 학습시켰을 때 identity)과 생성된 이미지(주근깨, 머리카락 등)의 stochastic variation을 비지도 분리하게 한다.
또한 합성이 intuitive, scale-specific control하게 되도록 한다.

Introduction

최근 많은 노력에도 불구하고, 이미지 합성의 다양한 측면(origin of stochastic features 등)의 이해는 여전히 부족하다. latent space의 속성 또한 잘 이해되지 못하였고, 일반적으로 입증된 latent space의 보간은 여러 generator을 비교하는 정량적 방법을 제공하지 않는다.

Generator은 학습된 constant input에서 시작해 이미지의 스타일을 각 latent code에 기초한 convolution layer마다 조정한다. 따라서 다른 scale에 있는 이미지의 특징의 strength를 컨트롤 할 수 있게 한다. 이 아키텍쳐의 변화는 네트워크에 직접 주입된 노이즈와 합쳐져 자동이고 고수준의 속성을 생성된 이미지의 stochastic variation에서 비지도 분리가 되게 하며, 직관적인 scale별 믹싱과 보간작업이 가능하게 한다.

Generator은 input latent code를 중간의 latent space에 포함시킨다(변동 요인이 네트워크에 표현되는 방식에 큰 영향을 미침). 원래라면 input latent space는 학습 데이터에 확률밀도를 따라야 하지만, 본 논문의 intermediate latent space는 그 제약조건에서 자유롭다(따라서 disentangle 될 수 있음).

latent space의 degree를 측정하는 이전의 방법은 본 논문의 case에 적용되기가 어려워 본 논문의 저자들은 generator의 이러한 측면을 정량화하기 위해 2개의 새로운 자동 metric을 제안한다. 이 metric들(perceptual path length and linear separability)을 통해 기존 generator 아키텍쳐와 비교했을 때 본 논문의 generator은 다양한 변형 요인에 대해 더욱 linear하고 덜 entangle된 표현을 보여준다.

Style-based generator

Untitled

기존에는 latent code가 input layer을 통해 generator에게 제공되었다. 본 논문에서는 input layer을 모두 생략하고 학습된 constant에서 시작하였다. input latent space Z안에 있는 latent code z가 주어지면 네트워크 $f:Z\rightarrow W$ 는 먼저 $w\in W$ 를 생성한다. 단순화를 위해 두 space의 dimensionality를 512로 지정하고, mapping $f$ 를 8-layer MLP로 구현하였다. 그 다음 학습된 아핀변환은 $w$를 합성 네트워크 $g$의 각 convolution layer 후에 adaptive instance normalization를 제어하는 스타일 $y=(y_s,y_b)$ 로 specialize한다.

아핀변환(Affine Transform)

Adaptive instance normalization

Untitled

Feature map인 $x_i$ 가 별도로 정규화되고, style $y$ 중 대응되는 스칼라 구성요소들을 통해 scaled되고 biased된다. 따라서 $y$ 의 차원은 해당 layer의 feature map 수의 2배이다.

본 논문에서는 example image 대신 벡터 $w$ 에서 공간적으로 변하지 않는 스타일인 y를 계산한다.

결론은 generator에게 명시적인 noise input을 사용하여 확률적인 세부 정보를 생성하는 직접적인 수단을 제공한다는 것이다. 명시적인 noise input는 uncorrelated Gaussian noise를 포함하는 single-channel 이미지이며 합성 네트워크의 각 layer에 dedicated noise 이미지를 공급한다. 또한 이 이미지는 모든 feature map에 “learned perfeature scaling factors”을 통해 broadcast 되고, 대응하는 convolution의 output에 더해진다.

Properties of the style-based generator

본 논문의 generator 아키텍쳐는 이미지 합성이 스타일에 대한 scale-specific 수정을 통해 컨트롤 가능하게 한다. 학습된 분포에서 각 스타일에 대한 샘플을 추출하는 방법으로 mapping network와 아핀변환을 사용할 수 있으며, 스타일 컬랙션을 기반으로 새로운 이미지를 생성하는 방법으로 합성 네트워크(synthesis network)를 사용할 수 있다. 각 스타일의 효과는 네트워크에 localize 되어진다.