Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Abstract

기존의 성능이 좋은 모델을 뽑아내는 방법은 여러 모델을 여러 하이퍼파라미터에 대해 학습시켜 가장 validation 성능이 좋은 모델을 뽑고, 나머지를 버리는 형태였다.
본 논문에서는 validation 단계에서 가장 좋은 것을 뽑는 단계를 큰 모델의 파인튜닝과 비슷한 개념으로 revisit한다.
다양한 하이퍼 파라미터의 모델 weight값들을 평균하는 것이 정확성과 견고성을 가질 수 있도록 도울 수 있다.

Method

$f(x, \theta):x\ denotes\ data,\ and \ \theta \ denotes \ parameters.$
Greedy soup은 각각의 모델들을 순차적으로 더하여주는 것으로 구성된다.

먼저 모델을 validation accuracy의 내림차순으로 정렬한다.
따라서 Greedy soup은 이전에 들어온 모델보다 좋지 못할 케이스를 배제할 수 있다.
더 나아가 기울기 기반의 모델 weight 보간 레시피(soup)를 탐색하였다.

Experiments

Error landscape visualizations

본 논문의 저자들은 training loss와 test error을 2개의 dimensional slice로 직관적으로 시각화를 진행하였다. 이 실험에서 저자들은 solution $\theta_1$ 과 $\theta_2$ 를 도출하기 위해 zero-shot initialization $\theta_0 \in R^d$ 와 fine-tune을 2번씩 사용하였다. solution은 parameter space의 plane이며 이를 ImageNet train loss, ImageNet test error, 5개의 분포 이동에 대한 error을 평가하였다.

이 결과는 2개의 finetune된 solution의 weight를 보간하는 것은accuracy를 올릴 수 있다는 것을 알려준다.