Questions
/
저기서 P(i|v) 는 도대체 뭘까..? log(P(i|f_theta(x_i)) 로 쓴 이유는 무엇일까?
Search
Share
❓
저기서 P(i|v) 는 도대체 뭘까..? log(P(i|f_theta(x_i)) 로 쓴 이유는 무엇일까?
상태
해결되지 않은 궁금증
생성일
2021/08/18 01:52
관련태그
1 more property
혹시 내가 Cross entropy 에 대해서 잘못 이해하고 있나? :
딥러닝 모델을 학습시키기 위해 최대우도추정(Maximum Likelihood Estimation) 기법을 씁니다. 주어진 데이터만으로 미지의 최적 모델 파라메터 θ를 찾아야 합니다. 입력값 𝑋와 파라메터 θ가 주어졌을 때 정답 𝑌가 나타날 확률, 즉 우도 𝑃(𝑌|𝑋;θ)를 최대화하는 θ가 바로 우리가 찾고 싶은 결과라고 보면 되겠습니다. 그런데 학습데이터 각각의 우도를 스케일해도 전체 argmax의 결과는 바뀌지 않으므로 ‘우도의 곱을 최대’로 만드는 θ와 ‘로그우도의 기대값, 즉 Σ𝑥𝑃(𝑦|𝑥)log𝑃(𝑦|𝑥;θ)를 최대’로 하는 θ는 같습니다.* 두 확률분포 𝑝와 𝑞 사이의 차이를 계산하는 데에는 크로스 엔트로피(cross entropy)라는 함수가 사용됩니다. 식은 −Σ𝑝(𝑥)log𝑞(𝑥)입니다. 여기에서 𝑝를 우리가 가진 데이터의 분포 𝑃(𝑌|𝑋), 𝑞를 모델이 예측한 결과의 분포 𝑃(𝑌|𝑋;θ)로 두겠습니다. 이렇게 되면 크로스 엔트로피는 파라메터 θ 하에서의 음의 로그우도의 기대값이라고 해석할 수 있습니다. 따라서 −Σ𝑥𝑃(𝑦|𝑥)log𝑃(𝑦|𝑥;θ)를 최소화하는 θ가 바로 우리가 찾고 싶은 모델이 됩니다. 아래 계산 예시** 참고.