🌍

a9_1. [info] title: 테슬라의 비전 트랜스포머가 도로의 연석을 찾고자 할 때 K, Q, V 가 작동하는 방식

생성

prev summary

🚀 prev note

♻️ prev note

next summary

🚀 next note

♻️ next note

a9_2. [info] title: 비전 Transformer 의 K, Q, V 가 가지는 의미

a9_1.1. title: 기계번역을 위한 Seq2Seq 모델에서의 attention 메커니즘은 디코더가 인코더에서 비슷한 것을 찾아내도록 학습하는 것이다.

💡 아이디어조각

11 more properties

테슬라 비전 리드 안드레 카파시는 이미지의 피처 조각 각각이 고유한 키/쿼리/값을 만든다고 했다. 카파시는 키란 "자기자신 조각에 대한 정보" 이고, 쿼리란 "추론을 하는 데 필요한 추가 정보에 대한 요청" 이라고 표현했다(ref1).

차량의 인지 단계에서는 주행을 위해서 2D 이미지를 입력으로 받아 3D 또는 2D 벡터공간으로 맵핑하는 일을 수행한다(ref3). 비전 트랜스포머가 해야 하는 태스크가 2D 이미지(400x400x1)(ref2)에서 도로 연석의 경계를 찾아내는 것이라고 생각해 보자.

키는 "나는 도로 연석의 일부를 보고 있는데, 대충 이 정도 위치에서 이런 특징을 잡았어" 이다. 반면 쿼리는 output space 의 특정 위치 픽셀 [i, j, 1] 이 자신이 아닌 다른 픽셀 [i' , j', 1] 에 대한 정보를 요청하는 것(ref2)이다.

안드레는 그리고 이 키와 쿼리가 상호작용하며 적절한 값을 만들어낸다고 했다. 쿼리에 대해 조금 더 자세히 설명하기 위해 아까 예를 다시 가져오면, 쿼리는 이렇게 표현할 수 있다.

나는 output space 의 (213, 100, 1) 위치의 담당자인데, 나는 지금 차가 가리고 있는 저기가 도로 연석인지 아닌지에 대한 정보를 추측해내기 위해 주변의 특징들이 필요해. -쿼리

Seq2Seq 에서 어텐션은 자신이 맡은 문장의 특정 영역에서 대해서 해석해야 하는 책임이 있는 쿼리가 키를 찾아 나서는 과정으로 이루어져 있다. 기계번역 문제에서 Output space 에 적절한 값을 쓴다는 것은 1차원 array 의 특정 위치에 적절한 번역값을 쓰는 부분에 해당한다. 컴퓨터비전 문제에서 트랜스포머가 output space 의 '특정 영역' 에 써야 하는 값은, 가령 3x3 과 같은 2차원 array(ref2:grid, raster) 의 특정 위치에 '이 영역이 도로의 경계일까?' 에 대한 추론값을 써내려가는 것에 해당한다.

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

None

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

a9_1.1. title: 기계번역을 위한 Seq2Seq 모델에서의 attention 메커니즘은 디코더가 인코더에서 비슷한 것을 찾아내도록 학습하는 것이다.

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

a9_2. [info] title: 비전 Transformer 의 K, Q, V 가 가지는 의미

ref : 생각에 참고한 자료입니다.

13:36, 모든 이미지와 그 feature 들은 고유의 키/값을 만들어내게 된다. 키/값/쿼리 모두가 multi-head self attention 으로 들어오게 된다. 이미지의 모든 조각이  key 를 브로드캐스팅하는데, 이 key 가 담고 있는 정보는 "자신의 조각에 대한 정보(what it is a part of)" 이다. 어떤 이미지 조각 : "야, 나는 도로 연석의 일부인데, 대충 이 정도 위치에서 이런 것들을 보고 있어." 같은 것들이 key 에 들어 있다는 말이다. Key 와 관련 있는 모든 query 가 반응하면서 "야 나는 output space 의 이 픽셀인데, 나는 이런 종류의 특징이 필요해" 라고 한다.  이렇게 key 와 query 가  상호작용하면서 값(value) 들을 적절히 추출해낼 수 있게 된다.

13:23, You initialize a raster of the size of the output space that would you like, and tile it with poisitional encodings with sines and cosines of the output space. 그리고 이것들은 MLP 와 함께 쿼리벡터가 된다. 

2:22, 테슬라의 경우에는 차량 주위에 부착된 8개의 카메라로부터 원시데이터를 받게 된다. 이 이미지들이 벡터공간(vector space) 이라고 불리는 곳으로 옮겨갈 수 있도록 실시간으로 처리한다. 벡터공간은 운전하는 데 필요한 모든 것 (신호등, 표지판, 차량, 이들의 방향, 위치, 속도 등..) 에 대한 3차원 표시이다. 벡터공간의 일부 정보를 렌더링해서 스크린에 보여줄 뿐이다.