Literature Note
/
8:09, attention mechanism (어텐션)은 encoder, decoder (근본이 Seq2Seq, 참고1, 2) 사이의 상관관계를 바탕으로 특징을 추출한다. self-attention (셀프어텐션) 은 데이터 내에서 상관관계를 바탕으로 특징을 추출하도록 한다. (둘을 비교해볼 수 있는데, 둘을 비교한 그림1 참고.)
Search
Share
🧠
8:09, attention mechanism (어텐션)은 encoder, decoder (근본이 Seq2Seq, 참고1, 2) 사이의 상관관계를 바탕으로 특징을 추출한다. self-attention (셀프어텐션) 은 데이터 내에서 상관관계를 바탕으로 특징을 추출하도록 한다. (둘을 비교해볼 수 있는데, 둘을 비교한 그림1 참고.)
출처
수집시간
2021/10/10 08:41
연결완료
인라인 메모
테슬라 케이스스터디 해봐야겠다. 이런 큐-키-값을 잘 활용하는 것 같은데
attention vs self attention
참고
1.
Seq2Seq 은 문장을 입력으로 받아 문장을 출력하는 모델을 의미한다.
2.
5:40, Seq2Seq (참고1) 에서 도입된 Attention mechanism (어텐션) 을 Query (쿼리), Key (키), Value (값) 의 관점에서 다시 들여다볼 수 있다. 먼저 디코더의 첫번째 시점에 대한 정보를 "쿼리", s1 이라고 하고, 인코더의 각 시점에 대한 정보를 "키" (만약 입력 문장이 세 개의 단어로 이루어져 있다면 h1, h2, h3) 라고 한다. 쿼리와 키에 dot product (내적) 을 통해 코사인 유사도를 계산한 뒤 softmax (소프트맥스) 취하면 attention score 을 계산할 수 있다. 이 attention score 에 인코더 각 시점에 대한 정보 (키, 참고3) 를 곱해주면 각 정보의 중요도를 반영한 context vector 을 만들 수 있는 것이 된다.