앞서 언급했듯, 우리는 우리의 도메인에 꼭 맞는 데이터셋이 없다 (참고1). 이를 벤치마킹에서 유의미하게 사용하려면 최소 100장 이상 되어야 하며, 매우 정밀해야 한다. 하지만, 정밀한 semantic mask 데이터셋을 만드는 일은 1장당 90분 이상 걸리곤 할 만큼, 무척 무거운 작업일 수 있다 (참고2). 따라서 다양한 augmentation / model / resolution 에 따라 달라지는 것을 눈으로 보며 확인하는 것이 가장 빠르고 추적하기도 쉽다.
UNET_MOBILENETV2/ b128_9c_224_224_tpu_tfrecord_gcs + augmentation v1
•
이 결과만 나이브하게 보아도, 224x224 로 학습시킨 모델은 640x480 에서 결과가 좋지 않다는 것을 알 수있다.
•
그런데 재미있게도 학습 데이터 해상도였던 224x224 보다 320x320 이 좋다.
•
둘보다 384x288 이 결과가 훨씬 더 좋다! 확실히 짜부라지는 것이 부정적인 결과를 낳는다! (참고3) 의 문제제기가 정당했다.
640 480
384 288
320 320
224 224
•
해상도가 높으면 더 멀리 있는 영역까지 잘 잡아낸다.
좌 : 640 480 우 : 384 288
FPN_EFFICIENTNETB0/ b96_9c_288_384_tpu_tfrecord_gcs_nodice + augmentation v1
•
데이터셋이 변경되지 않고 해상도와 일부 손실함수(loss function) 설계만 변화한 상태
640 480
384 288
320 320
224 224
FPN_EFFICIENTNETB0/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
640x480 비교
640 480
UNET_MOBILENETV2/
b128_9c_224_224_tpu_tfrecord_gcs
+ augmentation v1
640 480
FPN_EFFICIENTNETB0/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
384x228 비교
384 288
UNET_MOBILENETV2/
b128_9c_224_224_tpu_tfrecord_gcs
+ augmentation v1
384 288
FPN_EFFICIENTNETB0/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
FPN_EFFICIENTNETB0/ b96_9c_288_384_tpu_tfrecord_gcs_nodice + augmentation id:20211109_0
•
augmentation 이 체계적으로 관리되기 시작
•
전반적으로 성능이 하락함
384 288
UNET_MOBILENETV2/
b128_9c_224_224_tpu_tfrecord_gcs
+ augmentation v1
384 288
UNET_MOBILENETV2/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
384 288
FPN_EFFICIENTNETB0/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation id:20211109_0
FPN_EFFICIENTNETB0/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
UNET_MOBILENETV2/
b96_9c_288_384_tpu_tfrecord_gcs_nodice
+ augmentation v1
참고