Search
🌍

bc3_2.1.1. title: Class Activation Map 은 Classification 데이터셋으로 학습시킨 뉴럴네트워크의 피쳐맵을 활용해 Localization 문제를 풀 수 있음을 보였다. 마찬가지로, single class object detection 데이터셋으로부터 학습시킨 뉴럴네트워크의 피쳐맵을 활용하면 segmentation 문제를 풀 수 있다.

생성
🚀 prev note
♻️ prev note
🚀 next note
14 more properties
그림(참고1)
Class Activation Map (CAM) 은 분류(classification) 데이터셋으로 학습시킨 Convolution Neural Network (CNN) 의 feature map 을 적절히 이용하면 localization 문제(이미지에 검출할 객체가 단 하나인 경우 객체에 bounding box 를 그리거나 segmentation mask 를 그리는 문제)를 간접적으로 풀 수 있다는 아이디어를 제시했다(참고1). 이것이 가능한 이유는, 단순히 분류를 하는 모델을 학습시킨다고 하더라도 뉴럴 네트워크는 이미지를 특정 클래스로 분류하기 위한 패턴을 찾아낼 것을 강요받기 때문이다. CNN의 경우에는 receptive field 에 의해 지역 정보가 보존되는 덕분에 activation map 의 특정 구역으로부터 원본 이미지의 위치를 찾아낼 수 있는 것이다.
이 생각을 확장하면 single class object detection 데이터셋으로 학습시킨 뉴럴 네트워크를 적절히 이용하여 semantic segmentation 문제나 instance segmentation 문제를 간접적으로 풀 수 있겠다는 생각이 든다. 우선 bounding box 를 추론하는 loss 를 사용한다고 생각해 보자. 뉴럴 네트워크는 bounding box 의 위치와 confidence score 을 추정하기 위해서 앞서 설명한 classification 데이터를 기반으로 학습하는 경우와 마찬가지로 이미지의 일부 지역에 존재하는 패턴을 찾아내도록 강요받는다. 하지만 다들 잘 알고 있듯, bounding box 에서 실제로 object 가 존재하는 영역이 100% 인 경우는 드물다. 뉴럴 네트워크는 찾아낸 지역 패턴들을 바탕으로 가장 적절한 bounding box 를 찾아내는 회귀모델처럼 작동한다. Bounding box 를 추정하는 head 를 떼어내고 (앞서 CAM 이 그러했듯) activation 되는 부분을 segmentation mask 처럼 사용해도 된다는 말이다(from1:OCR의 text detection 문제에서).
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.
1.
from : 과거의 어떤 생각이 이 생각을 만들었는가?
1.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?
1.
None
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?
참고 : 레퍼런스