🌍

deer.aa5_2_1_1.2. title: 3D Pointcloud Map 을 활용해서 데이터와 관련된 문제들을 한방에 해결할 방법 제안

🚀 prev note

deer.a7.1_6. title: 의미를 가진(Semantic) 정보 손실 문제를 해결하기 위해서는 현재 시점에서 손실된 시맨틱 정보를 가지고 있는 과거 특정 시점의 데이터까지 고려할 수 있는 방법론이 필요하다.

deer.aa4_3_5_3_1. title: 서피스마스킹 데이터셋의 클래스 임밸런스, 맥락 없음(semantic information loss, consistency) 문제

deer.aa4_3_5_3. title: EDA, 서피스 마스킹 데이터셋 데이터 처리 이슈 (Real world, 데이터외주, 크라우드소싱, 서드파티, domain gap, less semantic information, no temporal information)

♻️ prev note

🚀 next note

deer.aa5_2_2. [entry] title: 'Mobility as a MMS' 로 Autonomy 2.0 만들기, 이 관점에서 본 데이터구축업의 한계

♻️ next note

관련 임시노트

15 more properties

자율주행에 HD Map 을 사용해야 한다고 말하려는 것이 아니다. 나는 이 글을 통해 데이터를 한 장 한 장 레이블링하는 방식에서 벗어나, 3D HD Map 이 만들어지는 '3D 공간' 상에서 레이블링해보는 것은 어떠냐고 제안하고 싶다. Mono/Stereo 카메라로부터 촬영된 영상들만 가지고도 3D Pointcloud Map 을 구축할 수 있다고 알려져 있다. 이렇게 영상의 집합으로부터 3D 모습을 추정해내는 것과 관련된 문제(task)에는 SfM(Structure from Motion), 3D Reconstruction, View Synthesis, Volume Rendering(참고42) 등이 있다.

무엇보다 이 Reconstructed 3D Pointcloud Map 을 만들게 되면 상당수의 데이터문제를 극복할 수 있다는 것이 HD Map 구축의 가장 큰 장점이다. 지금 디어의 상황을 돌아보았을 때, 앞으로 반드시 개선해 나가야 할 점은 데이터라고 생각했다. 구체적으로 말하면 우리 태스크에 알맞은 데이터 자체가 풍부하지 않은데다 우리가 사용하는 영상에 temporal/spatial semantic (시공간적 의미) 정보가 전혀 존재하지 않는다는 점이다(참고3,6,9). 이 문제를 '우리가 당장 해결할 수 없는 것' 이라고 여기며 회피하다 보니, 되려 마주칠 필요가 없었을지도 모르는 병목점들을 끊임없이 마주쳐 왔던 것 같다.

지금까지 만났던 병목들은 다음과 같다. 1. 현재 시퀀스의 1개 프레임의 영상만으로는 정확한 추론이 어려운 것이 사실인데도(참고9,10,22) 비디오 모듈 개발을 할 수 없다. 2. 점자블럭의 키포인트를 찾아내는 등 더 정교한 시도들을 하지 못한다. 3. 데이터셋의 도메인 차이 때문에(참고8,9) 덕지덕지 장착돼 있는 카메라를 포기하지 못하고, 카메라 개수를 줄이기 위해(참고34) 마음대로 광각 카메라로 바꿔 끼우지도 못한다(참고9,32,33). 4. 보행 영역이 moving object 에 의해서 가려지면, moving object 가 없을때를 기준으로 추론하지 않고 해당 부분을 그냥 '절대로 갈 수 없는 부분' 으로 치부할 수밖에 없다. 데이터셋이 없기 때문에 생겨나는 문제들을 피하기 위해 너무 많은 시간과 불필요한 비용들을 태우고 있다(참고9,22).

3D 공간상의 노란색 선이 도로의 경계를 표현한다. 3D 공간상에서는 선 한 번으로 모든 것이 정의되지만, 이를 시간에 따른 2D 평면의 움직임으로 해석하면 거의 무한한 데이터를 생성해낼 수 있는 것이라고 볼 수 있다.

그림(참고31) 그림에서 오른쪽 semantic 결과를 3D 공간상에서 만들어낼 수 있다면, 왼쪽 영상들 중 가장 아래 있는 영상은, 카메라 angle 이 어떻게 되든 다 만들어낼 수 있다.

위에서 언급한 각각의 문제들을 해결하기보다 문제의 본질을 찾아서 해결하려는 관점에서 접근해 보자. 잡다한 테크닉들이 필요해지는 이유는 다름아닌 "데이터의 부족"이다. Reconstructed 3D Map 을 바탕으로 labeling 하는 시스템을 잘 만들어 낼수만 있다면, 우리는 데이터를 이미지의 형태로 가지고 있는 것이 아니고, 공간의 형태로 가지고 있는 것이기 때문에 데이터를 우리가 필요한 방식으로 생성/관리/활용할 수 있고 필요한 공간만 뚝 떼어내어 사용할수도 있게 된다.

비록 레이블링 인하우스/외주 여부는 전략적 선택의 문제라지만, 자율주행 문제에서 효율적이고 다양한 도메인에 적용 가능하도록 Reconstructed Map 을 따 줄 업체는 없을 것이다(참고12) (참고41:팩트수집중). 흔치 않게 일부 업체는 Segmentation 데이터 수집을 위해 Reconstruction 을 사용하긴 하지만(참고28) Reconstructed 3D 공간상에서 차량 camera 시뮬레이션을 통해 sequential (temporal) data 를 수집하는 것이 아니라, sequential data 만을 위한 데이터셋을 따로 구축해야만 하는 듯했다(참고27). 대부분의 외주업체들은 2D 평면 레이블링을 할 것이고, 이는 3D 레이블링에 비해 비효율적이므로, 그 비용은 고스란히 디어의 지출이 된다. 가령 기구 위 하드웨어 배치가 달라지고 카메라 기종이 달라지거나 포즈가 달라져서 이에 맞는 데이터셋을 다시 요구한다면, 완전히 새로운 비용을 지불해야 한다는 것이다. 대부분의 MMS(Mobile Mapping System) 가 차도 데이터 수집 목적으로 설계되어 왔다는 것도 문제다(참고29). 하지만 3D Reconstructed Map 으로부터 영상을 추출할 수 있는 자체적인 기술이 있다면 그럴 걱정이 없다.

3D 데이터의 관점에서 레이블링할 때 작업 효율이 높아지는 이유는, 시간적/공간적으로 인접해 있는 영상들은 필연적으로 co-visible region(두 영상 모두에 동시에 보이는 영역) 이 큰데 이 영역을 모든 영상마다 다시 레이블링할 필요가 없기 때문이다(참고14). 이 주제를 우리 수준에서 구현할 수 있을까에 대한 질문을 다방면에 구한 결과, "어렵고 이슈가 많아 추천하기 어렵더라도 가능하긴 하다(참고13,14)" 라는 답변을 얻었다. 실제로 테슬라는 3D Labeling(영상에선 4D 라고 표현하기도 한다) 을 활용해 데이터 생산 속도를 1000배 높였다(참고1,2) 고 주장한다(참고35). 데이터수집업체 superbai 에서도 ‘데이터 생산 속도가 빨라지기는 할 것’ 이라고 말씀해 주셨다(참고36). 고려대학교 인공지능 대학원에서 3D Face Reconstruction task 를 연구했던 선배로부터 실제로 이 태스크와 관련된 주제들을 추천받을 수 있었다. 논문(참고19) 에서 발췌한 다음 그림에는 이 과정의 전반적인 파이프라인이 담겨 있다(참고18). 2016년에 공개된 오래된 논문이라 소개된 방법론을 받아들일 수는 없다. 하지만 큰 맥락에서 3D Data → 3D reconstruction → Pseudo label → User interaction → 3D/2D reprojection 의 파이프라인은 정리해 둘 만하다. 또한 Kitti 360 데이터셋은 라이다와(참고40:위험성) 카메라를 활용해 수집되었고 3D 공간에서 레이블링되었다. 3D 데이터로부터 만들어진 서브셋인 2D 데이터도 비슷한 파이프라인을 거쳐 만들어졌다(참고37,38,39).

그림 (참고18)

그림 (참고38)

훌륭한 모델과 최신의 모델을 구현하고 따라가는 것도 중요하지만, 데이터에 대해 집착하는 이유는 풀고자 하는 상황에 맞는 고품질의 데이터를 더 많이 준비하는 것이 좋은 모델을 구축하는 것보다 훨씬 더 중요하다고 강조되고 있기 때문이다. 딥러닝 민주화를 이끌었던 거장 앤드류 웅(Andrej Ng) 교수님은 2020년 있었던 공개적인 발표에서, GPT-3 정도의 성능을 만드는 인공지능일지라도 사람들은 모델만 기억하지만 실제로는 데이터가 80% 기여했으며(참고 21), 동일 시간을 주었을 때 모델에 집중한 팀은 전혀 성능을 높이지 못한 데 비해 데이터에 집중한 팀은 대부분 높은 성능 향상을 만들었다는 분석결과는 꽤 주목할 만하다(참고7). 이는 단지 아카데믹에 한정된 탁상공론이 아니며, 최근 딥러닝을 사용하는 수많은 업계 도메인에서도 이와 비슷한 여론이 형성되고 있다(참고15).

사실 나는 이러한 데이터문제들을 회피하고자 정답값 없이 학습할 수 있는 방법을 연구하는 분야: self-supervised learning 과 풀고자 하는 문제와 비슷한 문제에 데이터가 많을 때 많은 데이터를 이용해서 데이터가 빈곤한 도메인의 문제를 푸는 분야: transfer learning 에 대한 내용에 관심을 가졌다(참고16). 하지만 이 방법들은 본질적으로 데이터가 없다는 문제를 우회하는 연구들이다. 문제를 우회해서 해결하는 데에도 엄청난 리소스가 들어갈 것이라는 사실을 간과해서는 안된다. Vision task 의 transfer learning 에 대해서 회의적인 시각을 던진 논문(참고23) 에서는, downstream task 보다 수십~수백배 많은 데이터와 리소스가 필요한 upstream task 에 들어가는 리소스도 training 에 필요한 리소스라는 점을 상기시켰으며(참고26) 그 효과 또한 미미하여(참고24) 차라리 target task 데이터를 모을 것을 권유했다(참고25). Self-supervised 에서 최근 각광받고 있는 contrastive learning 을 보면, 2021년이 다 와서야 segmentation task 를 위한 contrastive learning 이 제안되고 있다는 사실을 알 수 있다. 이는 아직 작은 스타트업에서 사용하기에 설익고 검증되지 않은 기술로, 삽질할 시간에 데이터셋을 구축하는 것이 더 저렴할 수 있다. 즉, 데이터를 갖출 방법을 생각하지 않은 채, 방법들만 들이밀면 무조건 또다른 삽질에 갇힌다.

우리가 풀어야 하는 문제는 자율주행 문제인데, 문제에 데이터셋을 맞추는 것이 아니라, 데이터셋에 맞는 소프트웨어와 하드웨어를 사용해야만 했고, 이 괴리 사이에서 어떻게든 우리 문제에 끼워맞추려는 정말 많은 삽질들을 했다. 하지만 문제의 본질은 4D 데이터 (3D+time dimension) 가 없다는 것이다. 자율주행 문제를 풀려면 데이터가 있어야 한다. "데이터셋으로 사용하려고 3D Map 을 만들겠다" 는 것이 닭같이 보이는 데이터를 구축하기 위해 소 잡는 묵직한 칼을 사용하는 꼴로 보일지라도, 우리가 활용할 수 있는 데이터를 구축하는 일은 닭이 아니라 소에 훨씬 가깝다고 강조하고 싶다.

자사에서 데이터를 구축할 역량이 없다면 당연히 서드파티에 위탁해야 한다. 하지만 서드파티에는 분명히 리스크가 존재한다. 우리는 아직 ‘엄청 구체적인’ 전략이 없다. 또한 킥보드에 자율주행을 적용한 사례가 없다. 전략과 기술적으로 수많은 시행착오를 거치고 있는 자동차의 자율주행 업계와 다르게, 우리가 아무리 전략을 정밀하게 세운다고 한들 이것이 진리일 가능성이 적지 않은가(다양한 문제들에 대해서는 참고 30 에서 추가적으로 다룬다). 앞서 데이터 외주에 대해서 논하며 짧게 언급했듯, 우리의 전략이 조금 변경돼서 카메라의 각도를 조금 비틀어 버리는 의사결정들을 하게 되더라도 모든 레이블 정보를 다시 요청해야 할 리스크, 실제로 작업 결과물의 신뢰성(참고11) 및 태스크 적합성 등 많은 리스크가 있다는 것을 잊으면 안 된다.

현대자동차 컨퍼런스에서도 synthethic simulation 과 같은 것을 사용할 계획은 없냐고 질문이 들어왔었고, 현차측은 활용계획이 있다고 답변했다(참고17). 자율주행차 도메인에서는 궁극적인 시뮬레이션을 closed-loop (데이터수집-학습-추론-테스팅 전 과정에서 사람이 직접 해당 환경에 가서 문제를 파악하고 그에 맞는 액션을 취해야할 필요가 없는) data-driven (실제 세계 데이터로부터 만들어지고 더 많은 데이터가 쌓이면 쌓일수록 정교해지는) reactive (나의 행동에 의해 동적으로 반응하며, 시뮬레이션 내 객체들의 행동이 서로서로에게 영향을 미치는) simulation 이라고 한다(참고 4,5). 이 공간상에서 데이터를 레이블링할수도 있고, 시뮬레이션을 만들어 테스팅도 할 수 있다.

도대체 어떻게 implicit representation 을 레이블링 파이프라인에 적용하겠다는거지?

참고

13:30, ‣ 지금으로부터 4년 전 초기 레이블링 대부분은 2D 이미지 공간에서 이루어졌다. 하나의 이미지 위에 각각 폴리곤과 폴리라인을 그렸다. 그런데 수백만 파라미터를 훈련시키기에 이건 정말 효율적인 방법이 아니다. 

13:50, 테슬라는 바로 이미지(2D) 가 아닌, 벡터공간에 직접 3D, 4D 로 레이블링하는 방법으로 전환했다. 3D 에서 보이는 도로바닥에 레이블을 변경하면 카메라 평면에 자동으로 투영돼 작업량이 1000 배 가량 늘어난다. 

deer.a7.1_6. title: 의미를 가진(Semantic) 정보 손실 문제를 해결하기 위해서는 현재 시점에서 손실된 시맨틱 정보를 가지고 있는 과거 특정 시점의 데이터까지 고려할 수 있는 방법론이 필요하다.

closed-loop data-driven reactive simulation 

1p, This approach (Autonomy 2.0) is based on (1) 사람의 행동 모방을 통해 학습되는, end-to-end, 미분 가능한(differentiable) 자율주행 딥러닝 풀스택‣ , (2) closed-loop 반응형 시뮬레이션을 통한 학습/평가환경 조성‣ , and (3) 거대한 스케일의-낮은 비용의 데이터 수집이 가능하도록 만드는 것‣  

5:30, 2주간 SOTA 모델과 아키텍쳐 오픈소스를 찾아 쓰고, 학습율 정규화방법 하이퍼파라미터를 튜닝하는 등 model-centric approach 을 사용했을 때, baseline 에서 0% 성능 향상을 만들었고, data-centric approach 를 사용했을 때에는 16.9% 성능 향상을 만들었다. 

deer.a7.3_7_1. [info] title: 도메인 차이(Domain gap) 

deer.aa4_3_5_3. title: EDA, 서피스 마스킹 데이터셋 데이터 처리 이슈 (Real world, 데이터외주, 크라우드소싱, 서드파티, domain gap, less semantic information, no temporal information)

10.

deer.a7.1_3.1. title:
루돌프 성수동 EDA - 비디오가 아닌 이미지의 한계 

11.

12:25, ‣지금으로부터 4년 전 안드레가 합류할 때까지만 하더라도 많은 데이터를 얻기 위해 서드파티 업체를 사용했다. 하지만 굉장히 중요한 데이터셋 수집을 서드파티를 통해 한다는 것이 별로 좋지 않다는 것을 알게 되었다. 작업속도는 매우 느렸고 퀄리티도 별로였다. 테슬라 수직계열화 전략에 맞게 인하우스로 돌렸다. 시간이 지나면서 엔지니어와 밀착근무하는 레이블러가 천 명이 됐다. 

12.

데이터 레이블링 다 외주 주나요? 인하우스 팀이 있는 분 계신가요? 1. 검수자만 두고 외주 맡긴다. 정답은 없고 전략적 선택의 문제라고 생각한다. 2. 우리는 툴이 있어서 인하우스에서 돌린다.

13.

어렵긴 하지만 가능할 것 같다. 'A robust 3D-2D interactive tool for scene segmentation' 논문을 살펴보면 좋을 것 같다. 비슷한 task 는 semantic kitty, 3d instance segmentation 이 있다. -주영준

14.

코비저블(co-visible) 리전도 이미지가 달라졌다는 이유로 전부 레이블링해야하는 것은 사실이다. 이 문제 해결을 위해 3D Reconstruction 결과를 레이블링해도 되긴 하는데 추천하고 싶지는 않다. (코비저블 리전을 다시 레이블링해야 하는 문제가 존재함에도) 이미지 평면상에서 그렇게 하는 이유가 존재한다. (구체적인 이유에 대해서는 언급 안 하심) -양은성

15.

1%의 성능 향상보다는, 어떻게 적용할 수 있느냐를 더 고민하게 되는 것 같다. 앤드류 웅 교수님도 그런 맥락의 말씀을 하셨다. 비슷한 맥락에서, 슬램 논문 실험결과의 90%는 알고리즘을 납득시키기 위한 뻥카다. -강동호, 양은성 

16.

17.

현대자동차는 symthetic 시뮬레이션 활용 계획이 있다. 어떻게 잘 사용할 수 있을지 고민 중이다. 프로세스 구축을 할 계획이다. (비공개) 현대자동차 라이브 QnA 

18.

Fig. 2. Overview of our annotation tool. Segmentation on 2D can be done by projecting regions in 3D space onto 2D frames.

19.

[1610.05883] A Robust 3D-2D Interactive Tool for Scene Segmentation and Annotation 

20.

12:00, 데이터의 양도 중요하지만, 그 질도 중요하다. '일관성 있는 데이터 레이블링'(label consistency) 도 많이 중요하다. (예시 그림을 참고하자.)

21.

9:00, AI 관련 논문 100 개의 초록(abstraction) 을 읽었을 때, AI 의 80% 역할을 한다고 생각하는 데이터 관련 논의는 단 1건에 불과하고, 나머지 20%에 해당하는 모델과 아키텍처에 대한 논의가 99건에 달했다.

22.

deer.aa4_3_5_3_1. title: 서피스마스킹 데이터셋의 클래스 임밸런스, 맥락 없음(semantic information loss, consistency) 문제

23.

1811.08883.pdf Rethinking ImageNet Pre-training 

24.

deer.a6_1. title:
양과 질, 가성비. 데이터의 양, upstream, downstream, 유의미한 성능향상

25.

8p, Conclusion, Looking forward, this suggests that collecting annotations of target data (instead of pretraining data) can be more useful for improving the target task performance.

26.

8p, Conclusion, the cost of collecting ImageNet has been largely ignored, but the ‘pre-training’ step in the ‘pre-training + fine-tuning’ paradigm is in fact not free when we scale out this paradigm

27.

Sequntial 데이터도 함께 받을 수 있나? → 시간만 넉넉하다면 구축해 줄 수 있다. 지금 하고 있는 도시데이터셋 구축은, 도시 랜드마크의 특징이나 모양이나 형태에 도움이 되는 데이터를 만들고 있다. 그래서 지금은 sequential 한 데이터를 만들고 있지는 않다. 

28.

도시 환경 3D 데이터같은 경우는 크게 두 가지 분류로 수집을 하게 된다. 하나는 차량 MMS (Mobile Mapping System) 을 통해서 차가 지나다니며 주변 도로라던가 주변 건물들을 다 촬영하게 된다 (depth 는 32ch 라이다). 또 하나는 경비행기에서 촬영을 한다. 광주시와 전주시 일대를 촬영한다. 이렇게 촬영된 데이터를 라스 데이터라고 한다. 라스 데이터는 3D 포인트클라우드로 되어 있다. 포인트클라우드 점 하나하나마다 색을 칠하게 된다. 그 점에 대해서 레이블을 모두 달게 되는 것이다. 

29.

보행로 데이터 구축을 위해서는 MMS 장비가 필요하지 않나? → 사실, MMS 데이터 수집을 솔트룩스가 하는 것은 아니다. 다른 기관 통해서 데이터를 수집하면 솔트룩스가 정제하고 가공하는 형태로 진행이 된다. 사실 지금까지 인도를 지금까지 해 본 적이 없다. 알다시피 차도 데이터 구축은 차량에 부착해서 하지 않나. 오토바이라던지.. 아 인도는 출입이 불가하지 않나. 고민된다. 수집하는 기관에게 물어봐야 할 것 같다. -솔트룩스 연구센터 소장님 

30.

deer.aa5_2_2. [entry] title:
'Mobility as a MMS' 로 Autonomy 2.0 만들기, 이 관점에서 본 데이터구축업의 한계 

31.

1:05, real time incremental semantic mapping

32.

less or no labeled training data exists for fisheye pictures. Especially the semantic segmentation requires a pixel by pixel labeling. This cannot be done manually without an extreme amount of resources. Instead, we suggest to use synthetic data for the training. If these are as realistic as possible, these images can be used for training and create a model working on real world data. In order to create these images urban traffic scenes by Unity3D are used. 

33.

Fisheye cameras provide a wider field of view than narrow-angle pinhole cameras in complex urban traffic scenes and are becoming more popular in vehicles since they are cheap and easy to handle. However, fisheye images are distorted due to strong perspective projections and are consequently unwarped for practical usage. This unwarping process decreases the image quality, especially at the image boundaries. Thus, CNNs trained on pin-hole camera images do not perform well on fisheye images.

34.

Omnidirectional cameras provide a wider field of view (FOV) than perspective cameras thus eliminating the need for more cameras or mechanically rotatable cameras. 

35.

(테슬라의 reconstruction 이미지를 보시고 하는 말)  이건 카메라만으로는 하기 어려울 것 같다. 오직 테슬라만 8 카메라를 가지고 라이다를 대체할 수 있다고 주장하고 있어서, 업계에서는 잘 믿지 않는 것은 사실이다. 그래도 할만한 가치가 있지 않을까?

36.

3D 로 데이터를 수집하겠다고 하면 확실히 데이터 수집의 효율이 좋아지긴 할 것이다. 

37.

We annotate both static and dynamic 3D scene elements with rough bounding primitives and transfer this information into the image domain, resulting in dense semantic & instance annotations for both 3D point clouds and 2D images. 

38.

We also released our annotation tool that allows for labeling street scenes in 3D space: https://github.com/autonomousvision/kitti360labeltool 

39.

데이터 수집만 라이다로 하고 추론에 사용하는 데이터는 이미지로 하는 것, Kitti 360 이라는 데이터셋에서 비슷한 시도를 했었다. 

40.

41.

deer.aa5_2_2.2. title:
다양한 데이터구축 업체들 문의해보기, 콜드메일

42.

43.

전반적으로,  point cloud를 모아둔것도 HD map 레이어의 일종으로 보는 경우도 있습니다. TomTom 같은 지도 회사는 ROADDNA를 설계해서 배포하기도 하죠 -켁켁 맞습니다 로우레벨 레이어로 보긴하죠 단 이것만 있는걸 HD map이라고 하진 않죠 -양은성