핵심
- 쌍을 이루지 않은 데이터셋으로 학습이 가능한 image2image translation 메서드를 제안.
- 핵심 아이디어로 cycle-consistent loss를 제안해 여러 task에서 뛰어난 성능을 보임.
배경 지식
- GAN을 이용하여 이미지의 분포를 근사하는 모델 G(Generator)를 학습.
- 모델 G가 잘 동작한다는 것은 원래 이미지의 분포를 잘 모델링 할 수 있음을 의미.
- 생성모델은 실존하지 않지만 있을 법한 이미지를 생성할 수 있는 모델을 의미
cGAN
- 데이터의 모드를 제어할 수 있도록 조건(condition) 정보를 함께 입력하는 모델.
- 결국 클래스의 정보나 조건에 대한 정보를 함께 주는 것.
Pix2Pix
- I2I translation
- 학습 과정에서 이미지 x 자체를 조건(condition)으로 입력받는 cGAN의 한 유형.
- 픽셀들을 입력으로 받아 픽셀들을 예측한다는 의미를 가짐.
- GAN은 기본적으로 다른 생성 모델에 비해 blurry한 결과가 나오는 문제가 적음.
- GAN의 성능을 향상시키기 위해 L1 loss function을 함께 사용함.
- L2 손실을 이용할 떄보다 L1 손실을 이용했을 때 blurring 현상이 덜 발생함.
- 서로 다른 두 도베인의 데이터를 한 쌍으로 묶어 학습함.
- 특정 task에서는 데이터셋을 구항하기 어려운 경우가 있음(자연 등) → CycleGAN을 이용해 해결 가능
CycleGAN
- 일반적인 GAN Loss만 이용했을 때, 이미지의 content를 유지한 상태로 translation이 가능하다는 보장이 없음. → G는 어떤 입력이든 Y 도메인에 해당하는 하나의 이미지만 제시할 수도 있음. 즉, x의 content 정보를 아예 변경해버릴 수 있기 때문에 추가적인 제약 조건이 필요.
- G(x)가 다시 원본 이미지 x로 재구성될 수 있도록 함. → 원본이미지의 content는 보존하고 도메인과 관련한 특성을 바꾸도록 함. → 2개의 변환기를 사용