🌍

a9_2. [info] title: 비전 Transformer 의 K, Q, V 가 가지는 의미

생성

prev summary

🚀 prev note

♻️ prev note

a9_1. [info] title: 테슬라의 비전 트랜스포머가 도로의 연석을 찾고자 할 때 K, Q, V 가 작동하는 방식

next summary

🚀 next note

♻️ next note

💡 아이디어조각

11 more properties

테슬라의 비전팀 리드 안드레 (Andrej) 은 V (Value) 은 K (Key) 와 Q (Query) 의 상호작용 결과물이라고 하며, 이미지의 특정 패치의 정보를 K 가 담고 있고, 패치의 픽셀들과 다른 패치의 픽셀들 사이의 관계에 반응하는 것이 Q 라고 보았다 (참고2, 9). 반면 조금 다른 표현을 빌리면 V 는 이미지가 보존하고 있는 특징이며, K 가 픽셀들과 다른 픽셀들 사이의 관계를 정의하며, Q 가 해당 패치의 정보를 담고 있다고 보기도 한다 (참고1).

이 둘은 서로 모순된 것처럼 보인다. 이러한 두 입장이 담고 있는 표현에 담긴 뜻을 정확히 이해하기 위해서는 Attention mechanism 을 처음으로 제안했던 Seq2Seq 에서 어떻게 K, Q 를 정의했는지 들여다보면 된다 (참고7:Seq2Seq 모델의 Attention 이해). 이를 이해하면 K, Q 는 물론이고 왜 안드레가 output 2D raster 을 언급 (참고8) 했는지 이해할 수 있게 된다 (참고9). 그런데 디코더에서 나오는 정보를 쿼리라고 정의했던 바닐라 어텐션과 다르게, Transformer 의 Self Attention 에서는 키도 쿼리도 입력 데이터로부터 나온다 (참고10).

이렇듯 잘 생각해 보면, 둘은 같은 말이다. 그런데 이런 표현의 차이가 생기는 이유를 고민해 보게 되었다. 내가 추측하건데 이를 설명하기 위해서는 MSA 의 한 단계 더 저수준의 building block 인 SA (self-attention) 만 이해하면 된다 (참고3:이해).

SA 내부에는 attention weights matrix

A

가 등장하는데, 이것은 단지 키 벡터와 쿼리 벡터의 내적값의 일종이다 (참고5). 그런데 여기서 키가 어떤 역할을 할 것인지, 쿼리가 어떤 역할을 할 것인지는 정해져 있지 않다. 당연히 뉴럴 네트워크의 관점에서도 그냥 dot product 피연산자가 각각 어떤 역할을 하는지 알 리가 없다.

만약 사람이 키에 특정한 의미를 부여한다면, 쿼리는 키의 반대 의미로 자동으로 정해진다. 따라서 사람이 특정한 연결에 기능을 추가하지 않는 한 두 관점 모두가 훌륭한 정답이 될 수 있다 (참고6).

수정이력

•

@11/7/2021, 4:55:00 PM 처음에는 둘이 다른 말인 줄 알았다. 하지만 알고보니 같은 말이었다.

참고

13:00, NLP 에서 기원한 Transformer 의 Q,K,V 가 이미지에서 어떤 의미를 가질지 고민을 해 보았다. 굳이 표현을 하자면, Q 는 이미지 패치의 픽셀의 고정된 표현, K 는 패치의 픽셀들과 다른 픽셀들 사이의 관계를 정의, V 는 원래 가지고 있던 이미지의 특징에 대한 표현이라고 생각을 한다. 그 사고과정을 더 잘 이해하고 싶다면, 9:05, 논문 내 계산식의 설명 을 참고하자.

13:36, 모든 이미지와 그 feature 들은 고유의 키/값을 만들어내게 된다. 키/값/쿼리 모두가 multi-head self attention 으로 들어오게 된다. 이미지의 모든 조각이  key 를 브로드캐스팅하는데, 이 key 가 담고 있는 정보는 "자신의 조각에 대한 정보(what it is a part of)" 이다. 어떤 이미지 조각 : "야, 나는 도로 연석의 일부인데, 대충 이 정도 위치에서 이런 것들을 보고 있어." 같은 것들이 key 에 들어 있다는 말이다. Key 와 관련 있는 모든 query 가 반응하면서 "야 나는 output space 의 이 픽셀인데, 나는 이런 종류의 특징이 필요해" 라고 한다.  이렇게 key 와 query 가  상호작용하면서 값(value) 들을 적절히 추출해낼 수 있게 된다.

13p, appendix, Multihead self-attention (MSA) is an extension of SA in which we run k self-attention operations, called “heads”, in parallel, and project their concatenated outputs.

a9_2_1. title:
가설 공간의 제약이라는 관점에서 딥러닝 모듈/셀의 의미를 해석하기 

a9_1.1. title: 기계번역을 위한 Seq2Seq 모델에서의 attention 메커니즘은 디코더가 인코더에서 비슷한 것을 찾아내도록 학습하는 것이다.

13:23, You initialize a raster of the size of the output space that would you like, and tile it with poisitional encodings with sines and cosines of the output space. 그리고 이것들은 MLP 와 함께 쿼리벡터가 된다. 

a9_1. [info] title: 테슬라의 비전 트랜스포머가 도로의 연석을 찾고자 할 때 K, Q, V 가 작동하는 방식 

10.

a9_1.1_1. title: Seq2Seq 에서 사용한 어텐션 메커니즘이 크로스 어텐션(Cross Attention)이다. SA(Self Attention)는 인코더와 디코더 구조가 아니더라도 작동할 수 있는 어텐션 메커니즘이다.