•
10% 의 물류 detection 데이터로 학습시킨 모델로 100% 테스트 데이터에 대해 추론을 시키는 경우
•
10% 금융데이터 10000장 중 500장을 무작위하게 샘플링
•
500장 중 약 150~200장정도를 사람이 직접 확인
•
문제가 발견된 문서
무작위로 180장을 샘플링해서 직접 레이블링을 확인했습니다. 그 중 36장의 문서에 결함이 발견되었습니다. 이건 심각한 수치입니다. 데이터를 레이블링하고 아무도 검수하지 않고 그대로 사용했다고 볼 수 있습니다. 전체 5만장 데이터로 확장을 해 보면, 전체 데이터 중 1만장에 결함이 있을 것으로 예상됩니다. 아래는 레이블링이 잘못된 파일들입니다. → 유니독스로부터 don’t care 가 있을 것이며, 10% 데이터가 아니라 100% 데이터에서 샘플링해 보라고 응답받음 → 최근에 업로드주신 80% 데이터에서 100장 정도를 샘플링하여 검증하는 시간을 가졌습니다. 말씀 주신 don't care 를 암시하는 정보를 raw json 파일에서 발견할 수 없었습니다. 그리고 설사 don't care 클래스 bounding box 가 레이블되어있다고 하더라도, 왜 don't care 클래스로 분류되어야 하는지 의문인 bounding box 들이 계속 발견됩니다