Search
Duplicate
🌍

a9_1. [info] title: 테슬라의 비전 트랜스포머가 도로의 연석을 찾고자 할 때 K, Q, V 가 작동하는 방식

생성
🚀 prev note
♻️ prev note
🚀 next note
14 more properties
테슬라 비전 리드 안드레 카파시는 이미지의 피처 조각 각각이 고유한 키/쿼리/값을 만든다고 했다. 카파시는 키란 "자기자신 조각에 대한 정보" 이고, 쿼리란 "추론을 하는 데 필요한 추가 정보에 대한 요청" 이라고 표현했다(ref1).
차량의 인지 단계에서는 주행을 위해서 2D 이미지를 입력으로 받아 3D 또는 2D 벡터공간으로 맵핑하는 일을 수행한다(ref3). 비전 트랜스포머가 해야 하는 태스크가 2D 이미지(400x400x1)(ref2)에서 도로 연석의 경계를 찾아내는 것이라고 생각해 보자.
키는 "나는 도로 연석의 일부를 보고 있는데, 대충 이 정도 위치에서 이런 특징을 잡았어" 이다. 반면 쿼리는 output space 의 특정 위치 픽셀 [i, j, 1] 이 자신이 아닌 다른 픽셀 [i' , j', 1] 에 대한 정보를 요청하는 것(ref2)이다.
안드레는 그리고 이 키와 쿼리가 상호작용하며 적절한 을 만들어낸다고 했다. 쿼리에 대해 조금 더 자세히 설명하기 위해 아까 예를 다시 가져오면, 쿼리는 이렇게 표현할 수 있다.
나는 output space 의 (213, 100, 1) 위치의 담당자인데, 나는 지금 차가 가리고 있는 저기가 도로 연석인지 아닌지에 대한 정보를 추측해내기 위해 주변의 특징들이 필요해. -쿼리
Seq2Seq 에서 어텐션은 자신이 맡은 문장의 특정 영역에서 대해서 해석해야 하는 책임이 있는 쿼리가 키를 찾아 나서는 과정으로 이루어져 있다. 기계번역 문제에서 Output space 에 적절한 값을 쓴다는 것은 1차원 array 의 특정 위치에 적절한 번역값을 쓰는 부분에 해당한다. 컴퓨터비전 문제에서 트랜스포머가 output space 의 '특정 영역' 에 써야 하는 값은, 가령 3x3 과 같은 2차원 array(ref2:grid, raster) 의 특정 위치에 '이 영역이 도로의 경계일까?' 에 대한 추론값을 써내려가는 것에 해당한다.
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.
1.
None
from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.
1.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.
ref : 생각에 참고한 자료입니다.