🌍

bc3_2.1.1. title: Class Activation Map 은 Classification 데이터셋으로 학습시킨 뉴럴네트워크의 피쳐맵을 활용해 Localization 문제를 풀 수 있음을 보였다. 마찬가지로, single class object detection 데이터셋으로부터 학습시킨 뉴럴네트워크의 피쳐맵을 활용하면 segmentation 문제를 풀 수 있다.

생성

prev summary

🚀 prev note

♻️ prev note

next summary

🚀 next note

♻️ next note

bc3_2.1.1_1. title: OCR의 문자 존재 영역 검출(text detection)문제와 같이 bounding box 내부의 패턴이 sparse 하지만 bounding box 보다 정밀한 데이터 취득이 어려운 경우 binary segmentation 문제로 bounding box 내부와 외부를 구분하도록 학습시키면 bounding box 내부 픽셀 각각에 패턴이 존재할 확신도(confidence score)를 얻어낼 얻어낼 수 있어서 패턴의 위치를 조금 더 정밀하게 파악할 수 있다.

관련 임시노트

9 more properties

그림(참고1)

Class Activation Map (CAM) 은 분류(classification) 데이터셋으로 학습시킨 Convolution Neural Network (CNN) 의 feature map 을 적절히 이용하면 localization 문제(이미지에 검출할 객체가 단 하나인 경우 객체에 bounding box 를 그리거나 segmentation mask 를 그리는 문제)를 간접적으로 풀 수 있다는 아이디어를 제시했다(참고1). 이것이 가능한 이유는, 단순히 분류를 하는 모델을 학습시킨다고 하더라도 뉴럴 네트워크는 이미지를 특정 클래스로 분류하기 위한 패턴을 찾아낼 것을 강요받기 때문이다. CNN의 경우에는 receptive field 에 의해 지역 정보가 보존되는 덕분에 activation map 의 특정 구역으로부터 원본 이미지의 위치를 찾아낼 수 있는 것이다.

이 생각을 확장하면 single class object detection 데이터셋으로 학습시킨 뉴럴 네트워크를 적절히 이용하여 semantic segmentation 문제나 instance segmentation 문제를 간접적으로 풀 수 있겠다는 생각이 든다. 우선 bounding box 를 추론하는 loss 를 사용한다고 생각해 보자. 뉴럴 네트워크는 bounding box 의 위치와 confidence score 을 추정하기 위해서 앞서 설명한 classification 데이터를 기반으로 학습하는 경우와 마찬가지로 이미지의 일부 지역에 존재하는 패턴을 찾아내도록 강요받는다. 하지만 다들 잘 알고 있듯, bounding box 에서 실제로 object 가 존재하는 영역이 100% 인 경우는 드물다. 뉴럴 네트워크는 찾아낸 지역 패턴들을 바탕으로 가장 적절한 bounding box 를 찾아내는 회귀모델처럼 작동한다. Bounding box 를 추정하는 head 를 떼어내고 (앞서 CAM 이 그러했듯) activation 되는 부분을 segmentation mask 처럼 사용해도 된다는 말이다(from1:OCR의 text detection 문제에서).

Pixellink 는 왜 segmentation 결과물로부터 바로 bounding box 를 만들어내는 것이 일반적인 detection 파이프라인의 anchor box 회귀 모델로 문자 존재 영역을 찾아내는 것보다 낫다고 생각했을까?

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.

from : 과거의 어떤 생각이 이 생각을 만들었는가?

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?

bc3_2.1.1_1. title: OCR의 문자 존재 영역 검출(text detection)문제와 같이 bounding box 내부의 패턴이 sparse 하지만 bounding box 보다 정밀한 데이터 취득이 어려운 경우 binary segmentation 문제로 bounding box 내부와 외부를 구분하도록 학습시키면 bounding box 내부 픽셀 각각에 패턴이 존재할 확신도(confidence score)를 얻어낼 얻어낼 수 있어서 패턴의 위치를  조금 더 정밀하게 파악할 수 있다. 

참고 : 레퍼런스

Fig. 1. Overview of the CAM pipeline. We investigate three phenomena of the feature maps (F). P1. The areas of the activated regions largely differ by channel. P2. The activated regions corresponding to the negative weights (wc < 0) often cover large parts of the target object (e.g. monkey). P3. The most activated regions of each channel largely overlap at small regions. The three modules of CAM in gray boxes (M1–M3) do not take these phenomena into account correctly. It results in localization being limited to small discriminative regions.