자율주차 구현을 위해서는 서피스 마스킹 데이터셋을 사용한다. 이를 구현하는 과정의 대부분은 데이터를 적절히 가공하는 것에 사용될 것이다. 프로토타이핑을 진행하며, 데이터셋에는 여러 가지 문제점이 존재한다는 사실을 확인했다. 대회 본선 기간 대부분의 시간을 데이터를 가공하고, 이에 적절한 기구 등 솔루션을 도출하는 데 사용할 것이다.
가장 큰 문제는 메타정보가 없다는 것이다.
Ai hub 보행자 데이터셋에는, depth prediction 서브셋을 제외한 모든 서브셋들에 촬영 당시 카메라의 intrinsic 과 extrinsic 이 존재하지 않는다. 실제 촬영 영상을 보면, 크라우드소싱 기반의 데이터 수집 특성상 촬영한 각도가 제각각이다. 이건 기구에 맞도록 데이터셋을 구축하는 것은 고사하고 이 데이터셋에 꼭 맞도록 카메라를 장착하는 것 자체가 어려울 수 있다는 것을 의미한다. 이 데이터셋을 Real world 문제에 접목시키고자 한다면, 카메라의 pitch 에 자유도를 갖는 기구를 제작해야 한다.
또한 real world 에서 구동되는 기기 특성상 training 시에 나누었던 test set 을 벤치마크로 곧이곧대로 사용할 수 없다. 그렇다고 카메라 intrinsic, extrinsic 에 대한 정보가 없다면 우리의 기구에 맞는 벤치마크 데이터셋을 구축할 수 없다. 단적인 예로 구축된 데이터셋은 굉장히 선명했고, motion blur 라고는 찾아볼 수 없었다. 크라우드소싱이라면 대부분의 영상이 스마트폰을 통해 촬영됐을텐데, 이것이 '진짜 raw 값' 을 가지고 있는건지, 스마트폰의 자체 후처리가 들어간 것인지 알 수 없다.
카메라의 해상도에서 차이가 난다는 점도 문제이다. 이러한 고해상도 영상을 단순히 bi-linear 과 같은 방식을 통해 저해상도로 resize 한다면 앨리어싱이 나타날 수 있고, 현실의 디테일이 현실과 상당히 달라지지기 때문에 cropping 을 적극적으로 사용해야 한다.
현재 데이터셋의 문제
실제로 데이터셋 내에 위와 같이 촬영된 영상들이 상당수 존재한다.
잘못 augmentation 되어 데이터셋으로서의 가치를 잃어버리는 예시
데이터 증강 전략
640 480
640 480
Mirror augmentation
Shadow & Blur & Weather
하지만 cropping 등은 영상의 정보 일부분을 잃어버린다. 흔히 많이 사용하는 회전, 확대, 축소 모두 마찬가지의 특성을 가진다. 위 영상의 예시를 보자. 위 영상의 대부분을 차지하는 도로면을 보고, 저것이 도로라고 판단할 수 있는 근거는 노란박스 내에 존재하는 연석과 살짝 보이는 보도블럭에 모두 존재한다. 이런 영상의 경우, 우하단 영역의 정보를 잃어버리는 순간, 데이터셋으로서의 가치를 잃어버리게 된다. 나는 이것을 'semantic information loss' 라고 부른다 (Semantic Information Loss).
이런 문제를 완화하기 위해서는 지구 좌표계로 해당 지역의 정보를 담고 있는 메타데이터 쌍을 제공하거나, 해당 데이터가 수집되기 전후의 영상 정보를 취득하거나, 카메라에 보이지 않는 부분의 영상을 취득할 수 있어야 한다. 하지만 그런 정보가 제공되지 않는 데이터셋의 특성 (크라우드소싱, 인접한 시간에 촬영된 영상이 없음) 때문에, 영상 구석의 정보라도 잃어버리지 않고 보전할 수 있도록 데이터셋을 구성하는 것이 중요하다. 보도와 차도는 연속적으로 이어진다는 특징이 있으므로, cropping 되는 영상을 최대한 줄이고 mirror augmentation 을 통해 보완한다.
데이터셋 속 영상의 대부분은 노이즈와 블러가 거의 없는 영상이었다. 이 domain gap 을 조금이라도 상쇄시켜주기 위해 가우시안노이즈를 적용할 것이다. 또한 영상은 전반적으로 HDR 이 적용되어 명암이 또렷하고 노출값이 잘 잡혀 있는 모습을 보여주는데, 이 편향도 제거해 주기 위해 컬러지터, 밝기명암 랜덤변환 등을 적용할 것이다.