Cross Attention 은 ‘야 쟤내중에 너랑 연관성 높은게 뭐야?’ 라는 질문을 던져서 연관성을 강화하는 것이고, Self Attention 은 ‘야 우리들 중에서 서로 연관성 높은게 있지 않을까?’ 라는 질문을 던지고 연관성을 강화하는 것이다. 그래서 Cross Attention 은 멀티모달 인코더들 사이에 사용되거나, 인코더 디코더 구조에서 연관성 학습에 사용된다. Self Attention 은 이미지 페치 임베딩들 사이에서 또는 문장 내 토큰 임베딩들 사이에서 사용된다.
실제로 transformer 에서 입력 임베딩과 출력 임베딩 사이로 넘어다니는 부분이 cross-attention 이고, 입력 임베딩과 출력 임베딩 각각에서 자기 자신과 어텐션 메커니즘을 적용하는 부분이 self-attention 이다(ref1).
그림(ref1)
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.
1.
None
from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.
1.
•
둘의 연산 방식은 거의 동일하다. 그런데 굳이 불러 부르는 이유가 무엇일까? 의미적으로 이해할 필요가 있었다.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.
1.
None
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.
1.
None
ref : 생각에 참고한 자료입니다.