🔵

a9_1.1_2. title: Cross Attention 은 ‘야 쟤내중에 너랑 연관성 높은게 뭐야?’, Self Attention 은 ‘야 우리들 중에서 서로 연관성 높은게 있지 않을까?’ 라는 질문이 본질이다.

생성

prev summary

🚀 prev note

♻️ prev note

a9_1.1_1. title: Seq2Seq 에서 사용한 어텐션 메커니즘이 크로스 어텐션(Cross Attention)이다. SA(Self Attention)는 인코더와 디코더 구조가 아니더라도 작동할 수 있는 어텐션 메커니즘이다.

next summary

🚀 next note

♻️ next note

💡 아이디어조각

11 more properties

Cross Attention 은 ‘야 쟤내중에 너랑 연관성 높은게 뭐야?’ 라는 질문을 던져서 연관성을 강화하는 것이고, Self Attention 은 ‘야 우리들 중에서 서로 연관성 높은게 있지 않을까?’ 라는 질문을 던지고 연관성을 강화하는 것이다. 그래서 Cross Attention 은 멀티모달 인코더들 사이에 사용되거나, 인코더 디코더 구조에서 연관성 학습에 사용된다. Self Attention 은 이미지 페치 임베딩들 사이에서 또는 문장 내 토큰 임베딩들 사이에서 사용된다.

실제로 transformer 에서 입력 임베딩과 출력 임베딩 사이로 넘어다니는 부분이 cross-attention 이고, 입력 임베딩과 출력 임베딩 각각에서 자기 자신과 어텐션 메커니즘을 적용하는 부분이 self-attention 이다(ref1).

그림(ref1)

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

None

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

a9_1.1_1. title: Seq2Seq 에서 사용한 어텐션 메커니즘이 크로스 어텐션(Cross Attention)이다. SA(Self Attention)는 인코더와 디코더 구조가 아니더라도 작동할 수 있는 어텐션 메커니즘이다.

•

둘의 연산 방식은 거의 동일하다. 그런데 굳이 불러 부르는 이유가 무엇일까? 의미적으로 이해할 필요가 있었다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

None

ref : 생각에 참고한 자료입니다.

While self-attention layer is the central mechanism of the Transformer architecture, it is not the whole picture. Transformer architecture is a composite of following parts …