❌

[1_2.1_1] train/test 데이터 분할 방법을 변경한다.

상태

Done

담당

마감일

2022/11/21

요약

선행 태스크

선행 태스크 상태

후행 태스크

관련 마일스톤

2 more properties

•

문제점: @이장후 @11/21/2022, 12:07:00 PM

◦

train / test set 분리할때 이미지들 랜덤 샘플링 말고 00번~80번을 train, 80번~100번을 test 이런식으로 나누면 좋겠습니다.

◦

비슷하게 생긴 이미지가 많기 때문입니다. 즉, 0번 1번 2번 3번 데이터가 비슷하게 생겼고, 3번 4번 5번 6번 데이터가 비슷하게 생긴 식이라, 랜덤샘플링을 하면 1번을 학습해서 2번을 추론하는 데 그대로 쓸 수 있기 때문입니다.

◦

이 걱정은 모델이 추론을 위해 템플릿을 외워 버리지는 않았을까에 대한 걱정입니다. 손글씨 feature 을 기반으로 bbox 을 그리는 것이 아니라, 문서의 생김새에 과적합되지는 않았을까에 대한 걱정이라는 이야기입니다. >> 걱정으로 프로세스를 바꾸기에는 시간소요가 좀 있을 걸로 생각됩니다. grad cam을 찍어보던지 확인이 필요할 것 같네요

◦

그리고.. 데이터의 형태가 달라진 것 같습니다. 유니닥스 NAS 들어가보시면 도메인별로 분류가 되어 버렸어요. 그래서 이미지 파일의 이름이 동일해도 이렇게 문서가 다른 것을 보실 수 있습니다. >> 그러면 기존 1cycle 실험이 의미가 없게 되었네요