카카오팀은 upstream task 2억 1천만 장, downstream task 60만장을 사용해서 5%의 성능향상을 얻었다 (참고3,5).
단, 카카오가 자체 데이터셋으로 실험한 결과의 경우에는, domain gap (참고1,2) 이 없었다. 도메인 갭이 없다면 당연히 transfer learning 이 특히 더 좋은 사전지식을 줄 수 있으리라 생각할 수 있다.
논문(참고6) 에서는 높은 localization 을 요구하는 문제가 아닌 단순한 문제일수록 더 좋은 영향을 받을 수 있다고 설명한다 (참고7). 카카오팀은 classification task 를 classification task 로 전이학습했기에 좋은 영향을 받을 수 있지 않았을까.
또한 논문에서는 IMAGENET 과 COCO 데이터셋을 통해 실험하며, 모델이 결국 비슷한 양의 픽셀을 보면 비슷한 정도로 수렴하기 때문에 (참고8) pretraining 에 들어가는 어마어마한 시간 리소스, 컴퓨팅 리소스를 고려했을 때 비효율적이라고 주장한다. 실제로 카카오는 5% 높은 정확도를 얻기 위해 downstream (target) 데이터에 비해 수백배 많은 이미지와 수십배 많은 시간과 연산자원을 쏟아부었다 (참고9). 이것은 들어간 리소스를 고려했을 때, transfer learning 이 최종성능에 주는 영향이 충분하지 못한 것 아니냐는 비판에서 자유롭기 어렵다 (참고10).
카카오의 사례에서 전이학습을 통해 5% 남짓의 성능향상을 얻을 수 있었던 이유는, (1) 학습 효율 등을 다 씹어먹을 정도의 2억장의 어마어마한 스케일의 데이터셋을, (2) domain gap 없는 문제에, (3) 동일한 수준의 localization 이 요구되는 문제에 적용했고, (4) 이를 소화할 정말 풍부한 컴퓨팅 자원으로 사전학습시켰기 때문에 가능했던 일이 아니었을까.
참고
4.
.