Exploiting Visual Artifacts to Expose Deepfakes and Face Manipulations

Abstract

비디오에서 높은 퀄리티의 face editing은 많은 문제를 몰고 온다.
본 논문에서는 현재의 facial editing method와 여러 characteristic artifacts를 리뷰하고, 상대적으로 단순한 시각적 아티펙트가 그러한 조작임을 노출하는 데 효과적임을 확인하였다.
이러한 method가 visual features에 기반하였기에, 굉장히 간단하다. 하지만 간단함에도 불구하고 좋은 성능을 보인다.

Introduction

근래에 딥페이크 이미지 및 비디오 등이 미디어에 자주 노출되며 우리는 “과연 저 영상이나 이미지를 신뢰할 수 있는가”에 대한 질문을 하게 되었다. 그리고 딥페이크 기술이 발전함에 따라 진짜와 구분하기 어려운 딥페이크 이미지 및 비디오가 생성된다.

본 논문에서는 이미지 포렌식(과학수사로도 볼 수 있음)과 관련된 연구를 리뷰하고(본 논문 리뷰에서는 정리 X), 얼굴 이미지의 자동 생성 및 편집 방법을 제시한다. 그 후, 위의 방법에서 나올 수 있는 결함들을 조사하였다.

Manipulation Artifacts

딥페이크 기술들이 발전함에 따라 진짜 이미지와 가짜 이미지를 구분하기가 어려워 졌지만, 몇가지의 visual artifact들이 존재한다.

Global Consistency

이미지 생성 method(GAN 등)는 생성 모델의 잠재 공간과 특정 이미지 간의 보간을 부드럽게 하는 곳에 쓰일 수 있다. 또한 랜덤한 얼굴을 생성하는데 사용될 수 있다. 두 얼굴 간의 보간을 진행할 때에는 대부분 데이터가 의미있게 생성된다. 하지만 새로운 얼굴을 생성하는 작업에서는 이이지 보간에 사용되는 데이터 포인트는 랜덤하고 꼭 의미있는 데이터 포인트라고 할 수 없다.

Illumination Estimation

여러 attribute로 얼굴을 re-rendering 할 때에, 입사 조명은 원본 이미지에서 위조 이미지로 transfered 되어야 한다.

Diffuse reflection은 보통 잘 reproduce 된다. 특별히 딥러닝 기술을 통한 manipulation에서 본 논문의 저자들을 연관된 artifact를 찾아내기가 어려웠다고 한다.

다음으로 Face2Face manipulation의 몇 몇 케이스에서 shading artifact들이 나타날 수 있다. 그 artifact는 보통 코 부분에서 발생한다(사이드 부분의 render이 너무 어두운 문제).

본 논문의 저자들을 이러한 현상은 제한된 Face2Face illumination model 때문이라고 가설을 세웠다.

얼굴의 정반사는 눈 부분에서 가장 눈에 띈다. 딥페이크 기술을 사용해 생성된 이미지는 정반사에 대해 unconvincing하다. 눈 부분의 반사는 없거나, 하얀 얼룩으로 나타난다. 이 결함은 전체적인 가짜 눈의 모습이 둔한 것처럼 보이게 한다.

Geometry Estimation

얼굴 이미지를 조작하려면 안면 형상을 추정해야 한다. 이전의 illumination의 경우에는, Face2Face는 변형 가능한 모델을 이미지에 피팅시켜 형상 추정을 모델링한다. 딥러닝 기반의 기술은 데이터에서 기본적인 모델을 학습 가능하다.