🔵

deer.aa3.1.1. title: 테슬라가 주행가능영역(drivable area)을 찾기 위해서 과거에 시도했던 occupancy tracker은 히드라넷의 2D 출력들 중 segmentation 과 2D 이미지 기반의 깊이 추정값을 결합하여 3D로 만들어낸 결과물이다.

🚀 prev note

deer.aa3.1. title: 테슬라의 2017년무렵 인지 파이프라인은 2D 영상을 1개 프레임씩 처리했다.

♻️ prev note

🚀 next note

deer.aa3.1.1_1. title: 테슬라가 occupancy tracker을 포기한 이유는 2D 이미지 정보가 2D segmentation 네트워크 등 2D 네트워크들을 통과하며 시맨틱 정보들이 소실되어 3D로 복원하는 일이 어렵다고 판단했기 때문이다.

♻️ next note

16 more properties

안드레 카파시가 2017년무렵 테슬라에 와서 스마트서먼 기능 고도화를 위해 주행가능 영역 경계를 골라내는 occupancy tracker 개발을 주도하며 만들어낸 영상 처리 파이프라인을 짚어 보자.

단일 2D 이미지(x8카메라,x1시퀀스 입력)(ref6) 를 받는다.

동일한 백본의 멀티태스킹 네트워크 "히드라넷"(ref7)에 통과시킨다. 

그림(ref7)

도로와 차선의 경계를 찾는 head 에서(x8카메라,x1시퀀스 입력) pixelwise classification을 이용해 2D 추론값(x8카메라,x1시퀀스 출력)을 수집한다. (발표에 나타난 그림과 설명을 종합해 볼 때 테슬라는 주행가능 영역을 segmentation으로 처리하는 대신, 도로의 경계(road edge)와 차선(road lane)정보를 segmentation 했다는 것을 알 수 있다)

하지만 단순히 곡선이나 직선을 피팅하는 방식이 아니라 경계를 segmentation 으로 처리하는 방식(pixel by pixel edge segmentation)(ref1:테슬라는 발표에서 "한 개의 픽셀로 이루어진 것이 아니다"라고 표현했다)에 더 가깝다(정확히 말하면, ‘에지 검출(detection)’이라고 표현하는 것이 더 맞지만, 흔히 ‘검출’은 바운딩 박스를 그려내는 작업이라는 점과 대비하여 segmentation의 의미를 살리고 싶었다).

그림(ref1)

3D depth와 결합하면 화면의 아랫쪽 그림과 같이 선들이 끊기는 현상이 발생한다.

마지막으로 2D 추론값(x8카메라,x1시퀀스)을 깊이(depth)정보(x8카메라,x1시퀀스)와 통합한다. 복잡한 하이퍼파라미터 튜닝을 통해 8개의 이미지를 잘 스티칭한다. 이를 바탕으로 주행가능영역을 생성한다. 2D 이미지 공간에서 segmentation 처리한 값을 3D 정보로 만들어주기 위해서 이러한 segmentaion 결과값과 depth prediction 결과와 합치려고 했다(ref2, ref5:pseudo-라이다 방식). 테슬라는 drivable area를 road edge segmentation 결과값으로부터 추정(ref3, ref4) 해내도록 했다. 이렇게 주행가능 영역을 처리하는 로직을 occupancy tracker 이라고 부른다.

생성된 정보들 중 일부를 화면에 시각화한다(ref8).

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.

None

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

deer.aa3.1. title: 테슬라의 2017년무렵 인지 파이프라인은 2D 영상을 1개 프레임씩 처리했다.

•

2D segmentation 네트워크는 기존에 존재하던 것이었을 것이다. 여기에 3D 정보를 결합하는 방식으로 개발이 진행되음을 짐작해볼 수 있다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?

deer.aa3.1.1_1. title: 테슬라가 occupancy tracker을 포기한 이유는 2D 이미지 정보가 2D segmentation 네트워크 등 2D 네트워크들을 통과하며 시맨틱 정보들이 소실되어 3D로 복원하는 일이 어렵다고 판단했기 때문이다.

ref : 생각에 참고한 자료입니다.

10:20, 위에서 표시된 차선 자체가 한개의 픽셀로 이루어진 것도 아닌데 (never single pixel of the image) 정확히 깊이를 예측하는 것이 얼마나 어려울지 상상을 해 보아라. 

9:59, 이미지(2D) 위에 있을 때는 괜찮아 보이지만 이것을 벡터공간으로 옮기고 나면 엉망이 된다. 그 이유는, projection 을 할 만큼 픽셀별로 미친듯이 정밀한 깊이 (extremely accurate depth per pixel) 를 알 수 없기 때문이다. 

8:54, 스마트서먼 (차량 호출기능) 부터 시작했다. 이미지 공간상에서 하는 (도로 경계) 예측만으로는 직접 주행을 하기 어렵다. 차량 주변을 벡터공간으로 구성해 주어야 한다.

9:23, 이미지로부터 커브를 인식(curb detection) 해내고, 카메라 장면들을 계속 스티칭하도록 했다. 하지만 하이퍼파라미터 튜닝이 너무 복잡했다. 이 수작업은 너무 복잡하다. 차라리 뉴럴넷으로 end-to-end 로 학습시키는 것이 더 낫다. 

4:00, 처음에 테슬라팀에 합류했을 때는 모든 연산이 오직 하나의 이미지만 처리하는 수준이었다. 하나의 이미지가 neural network 에 의해 분석 → (a little piece 라고 강조함) 벡터공간의 과정을 거쳤다

4:30 4년전 테슬라팀에 합류할 때의 뉴럴넷의 모습부터 시간 순서대로 설명한다. 5:28  (지금도 그런듯) 다양한 Feature 을 제공하는 RegNet 을 backbone 으로 사용한다. … 6:00 BiFPN 을 통한 feature fusion 구조도 가져간다. … 그 다음 task specific head 로 넘어간다. (yolo-liked 라고 표현) … 7:00 이런 식의 hydra 아키텍쳐 레이아웃을 공통 backbone 에서 많은 head 로 뻗어나가도록 변환된다. … 8:22 다시 말하지만 이미지를 각각 독립적으로 프로세싱한다. (So, again, we are processing individual images) 이것만으로도 많은 일을 할 수 있다. … 8:49, So, that was all fine and great, but as we worked towards fsd, we quickly found that this is not enough. … (2021년 4년 전과 달리, 현재는 이 구조의 backbone 과 head 사이에 이를 합쳐준다는 이야기가 앞으로 나온다)

2:22, 테슬라의 경우에는 차량 주위에 부착된 8개의 카메라로부터 원시데이터를 받게 된다. 이 이미지들이 벡터공간(vector space) 이라고 불리는 곳으로 옮겨갈 수 있도록 실시간으로 처리한다. 벡터공간은 운전하는 데 필요한 모든 것 (신호등, 표지판, 차량, 이들의 방향, 위치, 속도 등..) 에 대한 3차원 표시이다. 벡터공간의 일부 정보를 렌더링해서 스크린에 보여줄 뿐이다.