인공지능을 베이스로 하는 가짜 이미지 생성인 딥페이크는 근래에 많은 관심을 모으고 있다. 그 기술이 발전하며 진짜 이미지와 구분이 어려운 가짜 딥페이크 이미지 생성이 가능해지고 있다.
본 논문에서는 딥페이크 비디오를 진짜 이미지에서 구분할 수 있는 딥러닝 베이스의 method를 제안하였다. 그 method는 딥페이크 알고리즘은 computation 자원과 production time의 제한 때문에 제한된 크기의 얼굴 이미지만 합성할 수 있으며 source face를 match 하기 위해 affine warping을 거치게 된다는 특징에 기반한다.
상기된 warping은 warped face와 다른 부분의 resolution inconsistency를 발생시키며, 이는 진짜 이미지와 딥페이크 이미지를 구분할 수 있는 여지를 제공하여 준다.
즉, 본 논문의 method는 인공지능에 의해 생성된 얼굴 부분과 근처 부분을 CNN을 사용해 비교한다는 것이다. CNN 모델을 학습시키기 위해서 affine face warping에 resolution inconsistency를 simulate한다. 구체적으로 보자면, 먼저 이미지에서 얼굴을 detect 하고, 얼굴을 표준 구성으로 정렬하기 위해 쓰이는 transform metrics를 계산하기 위해 랜드마크를 추출한다.
딥페이크 이미지를 제작할 때에 변화가 생기는 얼굴 부분에 아핀 변환이 일어난다. 이미지에 변환이 생긴 부분과 그 부분을 둘러싸고 있는 부분 사이에 resolution 차이가 발생할 것이다. 따라서, 본 논문에서는 CNN 모델을 제안해 딥페이크 영상을 구분해내었다.
CNN 모델의 학습은 인터넷에서 모은 이미지에 기반한다. 본 논문의 저자들은 여러 positive 이미지들을 모으고, 딥페이크 이미지를 생성하였다. 하지만 이러한 방법은 많은 시간과 비용이 필요하다. 따라서 본 논문의 저자들은 하기 이미지처럼 딥페이크 이미지들이 간단하게 affine warping step을 바로 진행하도록 하였다.

하기 이미지와 같이 본 논문의 저자들은 다음과 같은 순서로 CNN 모델을 학습시키기 위한 딥페이크 이미지를 생성하였다.

학습의 다양성을 더하여주기 위해서 본 논문의 저자들은 color information을 변경하였다. 또한 affine warped face area를 변경하여 딥페이크 파이프라인의 후처리 절차를 다양화 하였다. 하기 이미지와 같이 affine warped face area가 얼굴의 landmark를 기반으로 생성된다(이미지 d와 같이).