Search

[1_2.1_1] train/test 데이터 분할 방법을 변경한다.

상태
Done
담당
마감일
2022/11/21
요약
선행 태스크
선행 태스크 상태
후행 태스크
관련 마일스톤
2 more properties
문제점: @이장후 @11/21/2022, 12:07:00 PM
train / test set 분리할때 이미지들 랜덤 샘플링 말고 00번~80번을 train, 80번~100번을 test 이런식으로 나누면 좋겠습니다.
비슷하게 생긴 이미지가 많기 때문입니다. 즉, 0번 1번 2번 3번 데이터가 비슷하게 생겼고, 3번 4번 5번 6번 데이터가 비슷하게 생긴 식이라, 랜덤샘플링을 하면 1번을 학습해서 2번을 추론하는 데 그대로 쓸 수 있기 때문입니다.
이 걱정은 모델이 추론을 위해 템플릿을 외워 버리지는 않았을까에 대한 걱정입니다. 손글씨 feature 을 기반으로 bbox 을 그리는 것이 아니라, 문서의 생김새에 과적합되지는 않았을까에 대한 걱정이라는 이야기입니다. >> 걱정으로 프로세스를 바꾸기에는 시간소요가 좀 있을 걸로 생각됩니다. grad cam을 찍어보던지 확인이 필요할 것 같네요
그리고.. 데이터의 형태가 달라진 것 같습니다. 유니닥스 NAS 들어가보시면 도메인별로 분류가 되어 버렸어요. 그래서 이미지 파일의 이름이 동일해도 이렇게 문서가 다른 것을 보실 수 있습니다. >> 그러면 기존 1cycle 실험이 의미가 없게 되었네요