Abstract

Untitled

Approach

Natural Language Supervision

Single-Encode Classification

이전의 single-encoder approach는 대량의 데이터에 기반한 image classification을 통한 visual encoder을 pretrain하는 것이었다(annotation texts의 vocabulary가 고정된 상태). 이러한 image annotation은 일반적으로 아래 수식인 cross-entropy loss를 통한 학습을 위해 discrete(이산) class vector으로 매핑된다.

Untitled

학습된 image encoder은 다운스트림 작업을 위해 generic visual representation extractor을 사용한다.

Dual-Encoder Contrastive Learning

Single-encdoder classification과 비교해 dual-encoder은 noisy web-scale text description을 exploit하고 text tower을 통해 free-form text를 encode한다. encoder들은 paired text를 샘플 배치의 나머지들과 비교하여 optimize된다.

Untitled