
$f(x, \theta):x\ denotes\ data,\ and \ \theta \ denotes \ parameters.$
Greedy soup은 각각의 모델들을 순차적으로 더하여주는 것으로 구성된다.

본 논문의 저자들은 training loss와 test error을 2개의 dimensional slice로 직관적으로 시각화를 진행하였다. 이 실험에서 저자들은 solution $\theta_1$ 과 $\theta_2$ 를 도출하기 위해 zero-shot initialization $\theta_0 \in R^d$ 와 fine-tune을 2번씩 사용하였다. solution은 parameter space의 plane이며 이를 ImageNet train loss, ImageNet test error, 5개의 분포 이동에 대한 error을 평가하였다.

이 결과는 2개의 finetune된 solution의 weight를 보간하는 것은accuracy를 올릴 수 있다는 것을 알려준다.
