⛳

cognet.1_1.3. [entry] title: AI hub OCR 데이터 국가지원사업

🚀 prev note

♻️ prev note

🚀 next note

cognet.1_1.3_1. [info] title: AI hub 프로젝트 칸반

♻️ next note

16 more properties

논하는 세부 주제들 개요 MAX 25 links

•

AI hub 는 공공데이터 플랫폼이다. 유니닥스, 비타소프트, 코그넷나인이 정부과제를 수주하여 Ai hub 에 업로드할 데이터를 만드는데, 이 데이터의 품질을 보증하기 위해 두 가지 방법을 사용한다. 첫 번째는 만들어진 데이터들 중 1000장정도를 임의로 추출하여 사람이 직접 품질을 검사하는 방법이다. 두 번째는 모델을 이용해 학습이 정상적으로 되는지를 확인하여 품질을 검사하는 방법이다. 이때 코그넷나인은 이 평가에 사용되는 모델을 제작한다. 제작되는 데이터셋은 2종류이다. 물류 도메인의 OCR 데이터와 금융 도메인의 OCR 데이터이다.

◦

정부 지원금만 바라고 이 프로젝트를 시작한 것은 아니다. 우리가 진행하려는 프로젝트에 도움이 될 것이라고 생각했는데 생각보다 아니었다. 상대는 시뮬레이션으로 생성한 데이터를 우리에게 제시했고(참고3), 데이터의 품질도 매우 좋지 않았다(참고4).

관련 이메일 참고

◦

상대방은 큰 의미를 부여하는 것 같지도 않았다. 그래서 계획이 조금 틀어졌다. 

관련 이메일 참고

◦

그래서 너무 이 프로젝트를 무겁게 가져가지 않는다. 문서작업은 도와줄 사람도 많고 잘하는 사람도 많으니까 걱정하지 않아도 된다. 우리가 더 중요하게 생각하는 프로젝트는 아래와 같다.

▪

•

어쨌든, 총 두 가지의 모델을 이용해 데이터의 유효성을 평가하게 되어 있다. 한 가지의 모델만 사용하면 데이터에 유리한 모델이 선택될 수 있기 때문에 두 가지 이상의 모델을 사용하도록 되어 있다.

◦

•

태스크를 수행하는 전체적인 절차는 다음과 같다.

데이터를 다운로드받는다.

•

데이터는 image / json 형태로 제공된다. 별도의 메타데이터가 제공되지 않는다.

•

데이터는 분할되어 제공된다. 현재 우리가 유니닥스와 비타소프트로부터 받아낸 데이터는 전체 데이터의 20% 정도이다. 따라서 데이터가 있다고 치고 2~4 전체 사이클을 많이 돌려 두어야 하며, 데이터를 추가적으로 받을 때마다 바로 2~4 사이클이 돌아갈 수 있도록 만들어 두어야 한다.

일단 하나의 coco 포맷 json 파일로 변경한다.

•

로드된 레이블은 100개정도 직접 열어보며 눈으로 확인을 해 봐라.

◦

ba2.4.4.1. title:
머신러닝 문제는 일관된 레이블의 데이터, 최고의 품질을 보증하는 것이 중요하다. 그 무엇이든 하기 전에 직접 최고의 레이블링을 해 보아라.

◦

데이터가 상당히 clean 하지 않기 때문이다. polygon 이 나비 형식으로 꼬여 있기도 하고, 정말 심하게 엉터리 레이블링이 되어 있는 경우도 있다.

구현을 한다.

•

모델은 두 개의 부분 모델로 이루어진다.

•

현재 모델 세트 하나는 구현이 되어 있다. 이건 최대한 건들지 마라.

◦

•

우리가 베이스라인으로 사용하기로 한 두 번째 모델 세트는 코드가 공개되어있지 않으므로 논문을 참고해서 직접 구현해야 한다(inference code 만 포함되어 있음).

모델을 학습시키고 metric(E2E F1 Score(harmonic mean))이 기준치를 넘는지 확인한다.

•

학습 서버의 GPU 는 8개이다.

•

metric

◦

손글씨에 대해 0.7 이상

◦

인쇄글씨에 대해 0.8 이상

•

E2E Harmonic Mean 을 계산하는 일은 다음 과제와 연관이 있다.

◦

cognet.1.4. [entry] title:
OCR 을 위한 End2End F1 Score Matrix 구현하기

제출한다.

•

실행 스크립트 및 설명서와 함께 도커파일을 제출한다. 이미지가 아니라 도커 컨테이너 전체를 제출한다. 도커 컨테이너에서는 모델을 평가할 수 있는 모듈들이 포함된다.

•

이것을 제출하는 형태는 고정되어있지 않다. 작년의 경우에는 S3 에 제출했다.

•

cognet.1_1.3_1. [info] title:
AI hub 프로젝트 칸반

•

기존 개요가 마음에 들지 않아서 
엔트리를 다음과 같이 변경한다.

참고

이 분야에서는 특히나 방향에 대해 안내하는 사람이 중요하지 않나. 조금 심하게 낮잡아 보자면 그냥 소프트웨어 개발자들이 스택 오버플로우에 물어볼 수 있는 문제를 푸는 것과 달리, 이 분야에서는 문제를 푸는 방법을 생각해야 하는 것이라고 생각한다. … 너 말대로, 함께 고민할 수 있는 사람들이 약간 부족하더라도 10명쯤은 되면 뭐라도 같이 고민해서 같이 성장을 해 나가겠는데. 그런 상황이 아니라서 걱정이 되긴 한다. … 처음에 vgg 막 나왔을 때 이야기이다. 그때에는 직접 다 짰다. 6개월 내내 집도 못가고 삽질을 했다. Q. 그때 많이 느셨냐. A. 그때 정말 많이 늘었던 것 같다. 그때 당시에 내가 지금 계속 잘 하고 있는건가 하는 생각이 많이 들었다. 하지만 피드백이 없으면 그런 생각을 할 수 없었을 것이다. 거의 3년정도 걸린 것 같다. … 그때에는 선배들이 있었다. … 그 이후에는 누군가에게 무엇을 기술적으로 물어볼 일은 없는 것 같다.

… 주변에서 다들 잘한다고 하니까 이것을 재밌다고 믿은 것은 아닐까 하는 생각이 들었다. … 놀 땐 확실히 논다. 뭐 이상한 짓을 하는 것은 아니고 서로 과학 퀴즈를 내고 논다. 후회는 안 한다. 최선을 다했으니까 후회는 안 하는 것 같다.

… 그나저나 나(장후)에게 꼭 말해주고 싶은 것은, 별 생각 없으면 석사는 그냥 버리는 시간이다. 석사는 정말 공부를 많이 하고 많이 알아보고 가야 한다. 교수님도 인터뷰도 굉장히 많이 해야 하고 문의도 많이 해야 한다. 학교도 중요한데 잘하는 랩인 것이 중요하다. 그래서 개인적으로 미국이나 캐나다 정도로 가야 하고 최소한 홍콩 과기대정도는 가야 한다고 생각한다. 굳이 한국에서 대학원 갈거면 카이스트, 포공정도. 아니면 굳이…? 미국에 가는 것은 레퍼를 쌓는 과정이다. 그 환경에서 나의 레벨이 달라지고, 그 자체만으로도 1등이기 때문이다. 이건 불변의 법칙인 것 같다. … 미국 구글에서 엔지니어 2년 근무했다? 뭐가 더 궁금해. 어떻게 더 알아볼거야. 그걸로 끝. 너가 가장 잘하는 곳 갈거면 그럴거면 왜 해.

end-to-end 로 구현해보는 일이 한번쯤은 아주 유의미하다고 생각한다. detection 모델같은 경우에는 two stage 하나, one stage 하나 구현해보는 것이 좋을 것 같다. 아주 기본적인 모듈들을 이용해서.