Search

cognet.1_1.3. [entry] title: AI hub OCR 데이터 국가지원사업

🚀 prev note
♻️ prev note
♻️ next note
17 more properties
논하는 세부 주제들 개요 MAX 25 links
AI hub 는 공공데이터 플랫폼이다. 유니닥스, 비타소프트, 코그넷나인이 정부과제를 수주하여 Ai hub 에 업로드할 데이터를 만드는데, 이 데이터의 품질을 보증하기 위해 두 가지 방법을 사용한다. 첫 번째는 만들어진 데이터들 중 1000장정도를 임의로 추출하여 사람이 직접 품질을 검사하는 방법이다. 두 번째는 모델을 이용해 학습이 정상적으로 되는지를 확인하여 품질을 검사하는 방법이다. 이때 코그넷나인은 이 평가에 사용되는 모델을 제작한다. 제작되는 데이터셋은 2종류이다. 물류 도메인의 OCR 데이터와 금융 도메인의 OCR 데이터이다.
정부 지원금만 바라고 이 프로젝트를 시작한 것은 아니다. 우리가 진행하려는 프로젝트에 도움이 될 것이라고 생각했는데 생각보다 아니었다. 상대는 시뮬레이션으로 생성한 데이터를 우리에게 제시했고(참고3), 데이터의 품질도 매우 좋지 않았다(참고4).
관련 이메일 참고
상대방은 큰 의미를 부여하는 것 같지도 않았다. 그래서 계획이 조금 틀어졌다.
관련 이메일 참고
그래서 너무 이 프로젝트를 무겁게 가져가지 않는다. 문서작업은 도와줄 사람도 많고 잘하는 사람도 많으니까 걱정하지 않아도 된다. 우리가 더 중요하게 생각하는 프로젝트는 아래와 같다.
어쨌든, 총 두 가지의 모델을 이용해 데이터의 유효성을 평가하게 되어 있다. 한 가지의 모델만 사용하면 데이터에 유리한 모델이 선택될 수 있기 때문에 두 가지 이상의 모델을 사용하도록 되어 있다.
태스크를 수행하는 전체적인 절차는 다음과 같다.
1.
데이터를 다운로드받는다.
데이터는 image / json 형태로 제공된다. 별도의 메타데이터가 제공되지 않는다.
데이터는 분할되어 제공된다. 현재 우리가 유니닥스와 비타소프트로부터 받아낸 데이터는 전체 데이터의 20% 정도이다. 따라서 데이터가 있다고 치고 2~4 전체 사이클을 많이 돌려 두어야 하며, 데이터를 추가적으로 받을 때마다 바로 2~4 사이클이 돌아갈 수 있도록 만들어 두어야 한다.
3.
구현을 한다.
모델은 두 개의 부분 모델로 이루어진다.
현재 모델 세트 하나는 구현이 되어 있다. 이건 최대한 건들지 마라.
우리가 베이스라인으로 사용하기로 한 두 번째 모델 세트는 코드가 공개되어있지 않으므로 논문을 참고해서 직접 구현해야 한다(inference code 만 포함되어 있음).
4.
모델을 학습시키고 metric(E2E F1 Score(harmonic mean))이 기준치를 넘는지 확인한다.
학습 서버의 GPU 는 8개이다.
metric
손글씨에 대해 0.7 이상
인쇄글씨에 대해 0.8 이상
E2E Harmonic Mean 을 계산하는 일은 다음 과제와 연관이 있다.
5.
제출한다.
실행 스크립트 및 설명서와 함께 도커파일을 제출한다. 이미지가 아니라 도커 컨테이너 전체를 제출한다. 도커 컨테이너에서는 모델을 평가할 수 있는 모듈들이 포함된다.
이것을 제출하는 형태는 고정되어있지 않다. 작년의 경우에는 S3 에 제출했다.
기존 개요가 마음에 들지 않아서 엔트리를 다음과 같이 변경한다.
참고
1.
2.
3.
4.
5.