🧠

5:40, Seq2Seq (참고1) 에서 도입된 Attention mechanism (어텐션) 을 Query (쿼리), Key (키), Value (값) 의 관점에서 다시 들여다볼 수 있다. 먼저 디코더의 첫번째 시점에 대한 정보를 "쿼리", s1 이라고 하고, 인코더의 각 시점에 대한 정보를 "키" (만약 입력 문장이 세 개의 단어로 이루어져 있다면 h1, h2, h3) 라고 한다. 쿼리와 키에 dot product (내적) 을 통해 코사인 유사도를 계산한 뒤 softmax (소프트맥스) 취하면 attention score 을 계산할 수 있다. 이 attention score 에 인코더 각 시점에 대한 정보 (키, 참고3) 를 곱해주면 각 정보의 중요도를 반영한 context vector 을 만들 수 있는 것이 된다.

출처

수집시간

2021/10/10 07:56

연결완료

인라인 메모

시발 이게 1년만에 이해되다니...

s1 이 query 다.

참고

4:14, Seq2Seq (참고1) 은 Context vector (문맥 벡터) 의 크기가 너무 제한적이라는 단점을 가진다. 그래서 도입되었던 것이 Attention mechanism (어텐션) 이다. 디코더의 각 시점에 대해 인코더의 모든 시점에 대한 유사도를 가중치로 만든 context vector 을 사용한다. 

3:00, Siamese network (참고1) 는 어떤 이미지를 입력으로 넣을 때, 같은 클래스에 있는 이미지로부터 얻어진 feature 들끼리는 거리를 구했을 때 가까이에 있어야 한다는 가정 하에 학습을 진행하는 네트워크이다. 따라서 거리를 기반으로 한 loss 를 주로 사용한다... 에서 거리를 구할 때에도 코사인 유사도가 사용된다.

7:04, (attention, 어텐션) 일부 예시에서는 key 와 value 값이 동일하게 사용되지만, 경우에 따라서는 입력 데이터에 대해서 서로 다른 key 와 value 값이 사용될 수도 있다.