💬

Text Detection 의 경우 BackBone Model을통해 Feature Extraction에서 얻는 정보량 보다 Neck, Head Operation 에서 얻는 정보량이 중요하다. 따라서 Backbone Model로 연산량이 많은 Transformer (E.g, Swin Transformer, Vision in Transformer) 과 연산량이 적은 ResNet50을 비교하는 경우 성능의 차이가 없다. 따라서 Backbone Model 은 ResNet50을 선택했다. 문자영역을 찾고 Resolution, Orientation을 기존의 Object Detection 에 강건한 Segmentation 기반의 모델인 FAST 를 사용했다. 특히 FAST 는 기존 Text Detector 의 성능과 추론속도 문제를 해결하기 위해 CPU 기반의 Hand Craft Post Processing 과 Neural Architecture Search 기법을 도입하여 보다 빠르고 강건하게 문자영역을 추출 할 수 있다. 추출된 문자영역은 Transformer 를 활용하여 문자인식을 수행했다.

출처

수집시간

2022/10/26 02:41

연결완료

1 more property