🌍

deer.a7.1_1_4. title: 이미지의 가장자리 추론이 불안정한 이유는 Receptive field 문제가 아니라 도메인 차이(Domain Gap)와 맥락(Semantic) 손실 문제이다.

디어에서 자율주행 킥보드를 만들 때 이미지 segmentation 추론 결과가 특히 가장자리 부분에서 프레임별로 흔들리는 경우가 많았다. 처음에는 이것이 이미지 전체의 정보를 고려하지 못해서 발생하는 문제로, 부족한 receptive field가 원인이 아닐까 추측했다. 하지만 당시에도 충분히 깊이가 깊은 convolution 모델을 사용하고 있었기 때문에 이것이 문제라고 생각하기는 어렵다고 판단했다. 그 대신, 하기한 문제들이 총체적으로 조합되어 segmentation 결과물의 가장자리 추론 결과가 흔들리는 문제가 발생했던 것이 아니었을까.

다음 용의자는 domain gap이었다. 학습 시에 사용했던 이미지의 분위기(어렵게 말하면 데이터 분포)와 크게 달라진 환경, 카메라 세팅에서 segmentation 결과물을 사용하려고 하는 것이 문제일 수 있겠다는 생각이 들었다. 우리는 domain gap 문제를 해결해야 했다(ref2).

또다른 용의자는 semantic loss였다. semantic loss는 적절한 단어를 찾지 못해 내가 임시로 만들어 붙인 용어이다. 아래와 같은 이미지가 있다고 할때, 좌측 하단의 조금 더 새까만 영역은 횡단보도의 일부일까, 인도의 일부일까, 차도의 일부일까?

segmentation이 수행되어야 하는 이미지

segmentation 추론 결과. 굉장히 불안정한 추론을 보여준다.

솔직히 그 당시에는 당연하다고 생각하지 못했지만, 현재 프레임, 한 장의 이미지만을 가지고는 영상 가장자리의 영역이 어떤 클래스인지 맞추는 것은 무리가 있다. 우리는 어떻게 부족한 semantic 정보를 주입해줄 수 있을지 고민해야 했다.

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

deer.a7.1_1_5. title: 당분간은 score 에 집중하지 말고, qualitative 결과를 보기

deer.a7.1_3. title: 사무실에서부터 성수역까지 데이터 구경하기. EDA, 딥러닝 없이

deer.a7.1_3.1. title:
루돌프 성수동 EDA - 비디오가 아닌 이미지의 한계

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

deer.a7.3_7_1. [info] title: 도메인 차이(Domain gap)

•

앞의 글에는 자율주행 킥보드를 개발하며 발견한 domain gap 문제와 그와 관련있었던 이슈들에 대해 집중적으로 다룬다.

deer.aa4_3_5_3. title: EDA, 서피스 마스킹 데이터셋 데이터 처리 이슈 (Real world, 데이터외주, 크라우드소싱, 서드파티, domain gap, less semantic information, no temporal information)

•

‘의미를 가진(Semantic) 정보 손실’은 앞의 글에서 내가 정의한 단어이다. 더 좋은 단어가 있을지도 모른다. 나는 이미지 대신 동영상을 이용한다면 이 문제를 해결할 수 있을 것이라고 생각했다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

deer.a7.1_6. title: 의미를 가진(Semantic) 정보 손실 문제를 해결하기 위해서는 현재 시점에서 손실된 시맨틱 정보를 가지고 있는 과거 특정 시점의 데이터까지 고려할 수 있는 방법론이 필요하다.

까다로운 관리규정 덕분에 훼손되지 않았고, 까다로운 설치규정 덕분에 많은 정보를 품고 있는 점자블록을 사용하면 비디오를 사용하지 않고 맥락 손실 문제를 우회할 수 있다.

ref : 생각에 참고한 자료입니다.

None

Convolutional neural network-based approaches for semantic segmentation rely on supervision with pixel-level ground truth, but may not generalize well to unseen image domains. Considering semantic segmentations as structured outputs that contain spatial similarities between the source and target domains, we adopt adversarial learning in the output space. To further enhance the adapted model, we construct a multi-level adversarial network to effectively perform output space domain adaptation at different feature levels.