deer.aa3.1_7. title: 테슬라의 데이터 엔진 - 데이터 처리 & 레이블링 파이프라인

테슬라는 IMU, GPS, Odometry, multi camera 영상들이 모여 최대 45초의 비디오 클립과 데이터 집합을 서버로 전송한 뒤 가공하여 사용한다 (참고6). 2017년 초기 서드파티를 사용하던 것을 퀄리티와 속도상의 이슈로 중단하고 (참고1) 인하우스에서 엔지니어가 밀착하여 일반적인 기업처럼 2D 레이블링을 하는 체제로 전환했다 (참고2). 하지만 2D 평면에서 모든 프레임에 대해서 처리하는 레이블링은 비효율적이었고, 이를 3D 벡터 공간 (참고4:벡터공간) 에서 레이블링을 하여 자동으로 2D 평면으로 변환해 주는 체제로 변경하여 1000 배 이상의 레이블링 속도 향상을 만들었다 (참고3).

하지만, 이것도 사람과 컴퓨터 각각이 잘 하는 일을 하는 것이라고는 생각하지 않았고 (참고5) 오토 레이블링 파이프라인에 투자하기 시작했다. 사람은 어떤 씬을 보고 의미적으로 구분하는 것을 잘 한다. 하지만, 어떤 물체의 속력을 구하거나, 어떤 정적 구조물을 3D 로 복원해 내는 일을 매우 어려워한다 (참고 5, 12).

그래서 @11/28/2021, 8:38:00 PM 내가 생각하기에는 위와 같은 구조를 만들었다는 것 같다 (참고12).

만약 도로를 레이블링해야 한다고 생각해 보자. 우리가 보통 도로를 레이블링한다고 하면, 어떤 2차원 평면에다가 n차 다항식으로 표현되는 선을 만들거나 segmentation mask 를 만들어내는 방식으로 레이블했을 것이다. 테슬라는 이것이 미분불가능하다는 문제가 있다는 것을 지적하며, 도로 표면을 neural radiance field 에서 제안한 대로 implicit representation 으로 표현한다 (참고7).

아직 implicit representation 이 뭔지 모르는 상태에서 그린 그림 ㅋㅋ

네트워크에 좌표 x, y 를 넣으면 (쿼링하면), 지표면의 높이나, 도로의 경계나, 차선 여부 등을 예측한다 (참고8). 2D 공간에서 depth 와 segmentation mask 를 얻는데, depth 가 있기 때문에 labeled pointcloud 를 만들어낼 수 있다. 이렇게 차량에 부착된 모든 카메라로부터 얻은 영상을 네트워크에 넣은 결과물을 3D 공간으로 만들어볼 수 있다. 3D 공간을 각각의 카메라에 맞게 2D 평면으로 reprojection 한 뒤, 2D 평면상의 예측 결과와 C.E loss 를 적용한다. 이것을 모든 시퀀스에 대해서 종합하여 optimization 한다 (참고9). 그렇게 하면 굉장히 consistent 한 representation 을 얻어낼 수 있다.

이 컨셉을 활용하면, 네트워크가 일부 패치를 유도리 있게 제외할 수 있게 되는 등 다수의 플릿이 비디오만 보내오면 해당 공간의 특징을 업데이트할 수 있기 때문에 유지보수 측면에서 굉장히 훌륭해진다 (참고10). 또한 훈련에 사용될 데이터셋에 가려진 부분을 모두 표현할 수 있다는 것이 장점이다 (참고13).

참고

12:25, ‣지금으로부터 4년 전 안드레가 합류할 때까지만 하더라도 많은 데이터를 얻기 위해 서드파티 업체를 사용했다. 하지만 굉장히 중요한 데이터셋 수집을 서드파티를 통해 한다는 것이 별로 좋지 않다는 것을 알게 되었다. 작업속도는 매우 느렸고 퀄리티도 별로였다. 테슬라 수직계열화 전략에 맞게 인하우스로 돌렸다. 시간이 지나면서 엔지니어와 밀착근무하는 레이블러가 천 명이 됐다. 

13:30, ‣ 지금으로부터 4년 전 초기 레이블링 대부분은 2D 이미지 공간에서 이루어졌다. 하나의 이미지 위에 각각 폴리곤과 폴리라인을 그렸다. 그런데 수백만 파라미터를 훈련시키기에 이건 정말 효율적인 방법이 아니다.  

13:50, 테슬라는 바로 이미지(2D) 가 아닌, 벡터공간에 직접 3D, 4D 로 레이블링하는 방법으로 전환했다. 3D 에서 보이는 도로바닥에 레이블을 변경하면 카메라 평면에 자동으로 투영돼 작업량이 1000 배 가량 늘어난다. 

14:30, 하지만 3D Labeling 도 만족스럽지는 못했다. 이유는, 컴퓨터와 사람은 잘 하는 것이 다르기 때문이다. 사람은 의미를 가지는 레이블링(semantic) 에 강점을 보이지만, 컴퓨터는 geometry, reconstruction, triangulation, tracking 을 잘 한다. 그래서 벡터공간 데이터셋을 만드는 데 사람과 컴퓨터가 어떻게 협업할지 고민을 하게 된다. 

15:23, 클립은 비디오(영상 말고), IMU, GPS, Odometry 에 대한 많은 데이터를 가지고 있다. 한 클립은 최대 45초정도 된다. 엔지니어나 고객의 차량으로부터 업로드되어 서버로 보내진다. 

15:57, 일반적으로 어떤 도로면은 차선과 경계를 표현하는 곡선(spline) 이나 표면(mesh) 으로 표현할 수 있다. 하지만 topology 제한은 (어떤 현실 형상의 표현 방식을 곡선과 표면과 같이 대략적으로 정해 주는 것) 은 미분불가능(not differentiable) 하기 때문에, 테슬라는 neural radiance field (CVPR 2020 Oral) 의 컨셉에 등장하는 implicit representation 을 활용해 도로면을 표현했다. 

16:10, 지표면의 x, y 점을 쿼링하고, 지표면의 높이, 도로 경계, 도로 바깥 공간 등 여러가지 semantic 들을 예측해 달라고 네트워크에게 요청한다. 

16:20, 그래서 x, y 좌표계에 z 를 더해 3D 점을 만든다. 이 정말 많은 점들을 카메라의 뷰에 맞게 reprojection 한다. 그리고 image space (2D) 상에서의 예측 결과와 비교할 수 있다. 모든 시퀀스, 모든 카메라를 모두 종합해서 최적화시키면 굉장히 훌륭한 결과물을 보여준다.

10.

17:20, 이 방법을 이용해서, 주행 중인 차량의 주행 경로에 보이는 불필요한 일부 패치들을 제거할 수 있다. 동일한 위치에서 차량들이 지나가며 일부 정보가 손실된 (불필요한 일부 패치) 클립들을 모으고, 공통적인 것들을 지속적으로 구해내면 수집되는 비디오들 이외 다른 것들을 유지보수할 필요가 없다. 

11.

18:30, (Implicit representation 을 활용하면? ‣ ) 보통 하나의 프레임에서 다음 프레임으로 가는 데 텍스쳐가 없으면 잘 안 되지만, 도로면과 벽과 같은 표면에도 안정적인 포인트클라우드를 만들어낼 수 있다. 

12.

19:40, 정리하면, 테슬라는 어마어마한 데이터셋을 만들어내야 한다. 모든 도로 질감에 대해서, 모든 도로 표면에 대해서 레이블을 달 수 있어야 한다. 종종 가려지는 정지해 있는 물체도, 이동하는 물체(moving object) 도 마찬가지이다. 훌륭한 운동 정보(kinematics) 도 얻어야 한다. 레이블링된 수많은 클립을 만들어서, 매우 많은 데이터셋과 함께 멀티 카메라 비디오 네트워크를 훈련시킬 수 있다. 

13.

18:50, (오프라인:비실시간성) 서버에서 돌아갈 때 이러한 방식의 또다른 장점은, 가려진 부분을 볼 수 있게 된다는 것이다.