Aihub 프로젝트 타임테이블
•
아래 표는 Aihub 프로젝트를 잘 마치기까지의 high level 타임테이블이다.
•
코그넷나인은 모델 A, B 두 개의 모델을 만들어서 각각 100%의 데이터로 모델을 평가해야 한다.
모델A | 모델B | |
문자 영역 인식 (detection) | A1 (구현 완료, 경태파트장님) | B1 |
문자 해독 (recognition) | A2 (구현 완료, 경태파트장님) | B2 |
•
모델 A 구현은 경태파트장님이 완료해 두셨다.
◦
90%의 데이터가 추가되더라도 문제없을 것이라고 생각하고 계신다.
•
가장 문제가 되는 부분은 모델 B 구현이다.
코그넷나인 | 외부에서 필요한 것 | |
현재 | 모델 A 구현 (완료, 김경태 파트장님) | 10% 데이터 (완료) |
10월 중 | 모델 B1 구현 | 1% 데이터 (이미 있음) |
11월 초 | 모델 B2 구현 | 1% 데이터 (이미 있음) |
“ | 모델 B 개선 | 10% 데이터 (이미 있음) |
“ | 모델 A 학습 | 80% 데이터 |
11월 중 | 모델 B 학습 | 80% 데이터 |
“ | 문서 작성 | 제출 방법, 양식, 기한 |
11월 말 | 문서 제출 | 100% 데이터 |
A, B 발표: 이수화 박사님께서 도와주실 예정 |
OCR 모델 B 의 구성요소
•
OCR 모델 B 는 detection 모델과 recognition 모델로 나뉜다.
•
그 중 문제가 되는 부분은 detection 모델 B1 에 해당한다.
OCR 모델 B | 역할 | 논문 |
모델 B1 | text detection | Pyramid Mask Text Detector (2019) |
모델 B2 | text recognition | 2D Self-Attention |
OCR 모델 B1 의 문제점
•
AI 분야에서는 일반적으로 아이디어를 제안한 사람이 해당 아이디어에 대한 구현체를 오픈소스로 공개한다.
← 자세히 보기
하지만 이 논문 Pyramid Mask Text Detector (2019) 에 대해서는, 높은 인지도에도 불구하고 오픈소스를 찾을 수 없었다.
•
따라서 해당 논문을 구현하는 일은 상당히 까다로운 일일 것이라고 예상할 수 있다.
OCR 모델 B1 을 구현하는 과정
OCR 모델 B1 | 현재 상황 | 의존성 | 시간 | 비고 |
데이터로더 및 환경 구축 | 2일 | |||
논문 구현 및 디버깅 | N일 | 얼마나 걸릴지 모른다. | ||
평가 | ▲ | 모델 inference 구현체* | 1일 (3일-2일) | -2일: 모델 inference 구현체가 실행가능한 상태가 되었다. |
하이퍼파라미터 튜닝 | 1% 데이터 | 1일 이상 | 얼마나 걸릴지 모른다. | |
모델 및 데이터 개선 | 10% 데이터 | 2일 이상 | 10% 데이터로 한 번 학습시키는 데 2일이 걸리기 때문이다. | |
Aihub 요구사항 충족 | 90% 데이터 | 7일 이상 | 전체 데이터로 한 번 학습시키는 데 7일이 걸리기 때문이다. |
•
이렇게 남아있는 한 사이클을 도는 데 최소 11일 + N일 정도가 걸린다. 하지만 1 iteration 만에 정확히 끝난다는 보장이 없다. Aihub 요구사항을 충족시키지 못할 것 같으면 지속적으로 사이클을 돌며 개선해야 한다. 따라서 만약 iteration 이 반복되면 이 시간은 훨씬 길어질 수 있다.
•
사람의 능력으로 줄일 수 있는 요소는 “논문 구현 및 디버깅” 이고, 따라서 이것을 지금 11월 이내에 마쳐야 하는 상황인 것이다.
◦
N ≤ 5 를 지키며 @이장후가 해당 태스크를 마칠 수 있을 가능성에 대해
▪
경태파트장님께서는 낙관적으로 보시지 않았다.
▪
다양한 사람들(석,박사 및 현직자) 에게 물어보았을 때에도 답변을 유보하는 경우가 많았다.
▪
스스로 온전한 판단을 하기에는 unknown-unknown(무엇을 알지 못하는지 모름)이 많다.
*원저자가 공개한 inference 만 가능한 오픈소스도 실행이 아예 불가능한 상태였으나, 혹시 구현을 하게 되는 상황이 되었을 때 모델이 올바르게 구현되었는지 평가는 반드시 필요하기 때문에, 모델 평가를 할 수 있도록 환경을 구축해 두었다.
제안
•
컴퓨팅 리소스와 같은 학습 자원을 클라우드 등을 통해 빌려 사용하면 시간을 추가적으로 절약할 수 있다.
•
하지만 가장 불확실성이 높은 요소는 “논문 구현 및 디버깅” 이므로, 이 부분에 대한 인력지원이 가장 급한 상황이다. Detection 문제를 low-level 부터 구현해본 경험이 있는 사람이 7일정도 시간을 투자해 주어야 한다.
•
Aihub 프로젝트의 경우, 제가 도전을 해볼 수 있도록 기회를 주신다고 하더라도 2nd plan 을 두는 것이 옳다고 생각한다.
결론(@10/25/2022)
•
실장님과 팀장님들은 다음 요소들을 알아보아 줄 것이니 걱정하지 마라.
@11/1/2022 까지 | 파트장님 direction 가능 | 파트장님 direction 불가능 |
direction 만으로 충분함 | 이수화 박사님 가이드 + 외부 리서쳐 | |
direction 만으로 불충분 / 파트장님 참여 가능 | - | |
direction 만으로 불충분 / 파트장님 참여 불가 | 외부 리서쳐 | 이수화 박사님 가이드 + 외부 리서쳐 |
◦
이와 별개로, 왜 해당 기술을 사용하게 되었는지와 관련하여 다이퀘스트와 논의를 할 예정이다.
•
하지만 이와는 별개로 @이장후와 @Beeline님이 지원이 전혀 없이도 이 프로젝를 온전히 끝내 보겠다는 마음가짐을 가졌으면 좋겠다.