💬

최근에는 수식보다는 개념 자체에 대해서 이해하는 것이 요구된다. 그래서 논문을 읽으면서 이런 주제들에 대해서 그냥 넘어가면 안된다.왜 softmax 를 쓰는 것일까? 그럼 softmax 이전에 svm 에서는 왜 softmax 를 사용하지 않았을까? CE 를 두고 왜 softmax 를 사용하는 것일까? seq2seq 과 attention 의 차이가 도대체 뭔데? receptive field 가 문제라면 거대한 커널의 convolution 을 사용하지 않고 self-attention 을 사용하는 이유는 뭔데? 꼭 필요한 연산에만 attention 연산을 수행한다는 것이 무슨 의미인건데? 예를 들어, FPN 은 단순히 여러 스케일로 학습을 시켰다는 것에 의의가 있는 것이 아니다. Literal connection 은 “인접한 스케일” 에 대한 정보와 연결해 준다는 사실이 중요한 것이다.

출처

수집시간

2022/10/07 09:27

연결완료

1 more property