Abstract

Method

1.png

  1. 먼저 모델을 validation accuracy의 내림차순으로 정렬한다.
  2. 따라서 Greedy soup은 이전에 들어온 모델보다 좋지 못할 케이스를 배제할 수 있다.
  3. 더 나아가 기울기 기반의 모델 weight 보간 레시피(soup)를 탐색하였다.

2.png

Experiments

Error landscape visualizations

본 논문의 저자들은 training loss와 test error을 2개의 dimensional slice로 직관적으로 시각화를 진행하였다. 이 실험에서 저자들은 solution $\theta_1$ 과 $\theta_2$ 를 도출하기 위해 zero-shot initialization $\theta_0 \in R^d$ 와 fine-tune을 2번씩 사용하였다. solution은 parameter space의 plane이며 이를 ImageNet train loss, ImageNet test error, 5개의 분포 이동에 대한 error을 평가하였다.

3.png

이 결과는 2개의 finetune된 solution의 weight를 보간하는 것은accuracy를 올릴 수 있다는 것을 알려준다.

4.png