///
Search
Duplicate
✏️

베이즈 확률론의 의미를 개념적으로 파악하자

created
2024/03/29 11:43
last edited
2024/04/04 06:48
difficulty
이과: 보통
문과: 어려움
1 more property

베이즈 확률론의 직관적 이해

베이즈 확률론이라는 것을 이해하려고 할 때 가장 고통스러운 것은 도대체 이것이 직관적으로 무슨 의미를 가지는지 이해하기 어렵다는 것이다. 인터넷에 검색해 보아도 아리송한 단어들만 잔뜩 나온다. 학교는 확률통계 수업을 필수 교양으로 지정해 두었지만, 베이즈 확률론까지 다루지 않고 끝나 버렸다. 그래서 이를 조금 더 직관적으로 이해해볼 기회가 없이 그냥 인터넷에서 등장할 때마다 슬금슬금 피했던 것 같다.
최근 디퓨전 모델을 보아야 하는 상황이 왔다. 더이상 확률통계 표현에 대한 의미 이해를 미래로 미루지 말자는 생각이 들어, 고등학교 수학 지식만 있어도 베이즈 확률론이 가지는 의미를 이해할 수 있는 에피소드를 중심으로 이야기를 전개해나가보고자 한다.

베이즈 확률론에서 ‘수정가능하다’ 말이 가지는 의미

그냥 평범한 어느 날, 병원의 진료실에 한 환자가 조용히 들어선다. 처음 보는 얼굴의 환자가 아무런 증상 설명도 없이 단지 진료를 받기를 원한다. 이 순간, 의사는 환자가 감기에 걸려 있을 가능성에 대해 생각해본다. 감기야 뭐 흔한 질병이기 때문이다. 전체 인구 중 감기에 걸린 사람의 비율, 즉 사전 확률 P(감기)P(감기)을 바탕으로, 의사는 이 환자가 감기에 걸렸을 확률을 추정할 수 있다. 하지만 이는 매우 초기적인 추정에 불과하다. 이것이 바로 ‘이 사람이 감기에 걸렸다’ 라는 가설이다.
그때, 환자가 말을 시작한다. "오늘 아침부터 몸이 으슬으슬 떨리고 오한이 있어요." 환자에 대한 의사의 이해가 변하기 시작한다. 오한이라는 새로운 증거가 드러났기 때문이다. 이 새로운 정보, 또는 머신러닝 용어로는 '새로운 특징(feature)'를 통해 의사는 감기에 걸렸을 확률 P(감기)P(감기)을 수정할 수 있다. 오한이라는 증거가 주어진 상태에서 환자가 감기에 걸렸을 확률 P(감기오한)P(감기∣오한)로 업데이트할 수 있는 것이다. 이는 새로운 증거를 통해 얻어진 업데이트된 추정치이기 때문에 사후 확률이라고 부른다. 의사는 의대생 시절 감기에 걸렸을 경우 오한을 경험한 사람들의 비율에 대해 공부했고, 이를 통해 얻은 확률 P(오한감기)P(오한|감기) 을 지식을 통해 이미 알고 있다. 베이즈 정리를 이용해 사후 확률은 아래와 같이 표현이 가능하다.
P(감기오한)=P(오한감기)×P(감기)P(오한)P(\text{감기}|\text{오한}) = \frac{P(\text{오한}|\text{감기}) \times P(\text{감기})}{P(\text{오한})}
이 과정에서 P(오한)P(오한) 은 전체 인구 중 오한을 경험하는 사람의 비율을 나타낸다. 이들은 우리가 이 증거를 얼마나 중요하게 생각해야 하는지에 대한 정보를 제공하기도 한다. 예를 들어, 만약 오한이라는 증상이 감기뿐만 아니라 여러 다른 조건에서도 발생할 수 있다면, 이는 오한이 특정 질병에 대한 구체적인 증거로서의 가치가 상대적으로 낮을 수 있음을 의미한다. 즉, 오한은 다양한 상황에서 발생할 수 있기 때문에 진단 과정에서 오한이라는 증상을 해석할 때, 그 증상이 다양한 원인으로 발생할 수 있음을 고려해야 한다는 것이다. 베이즈 정리는 이 부분을 반영하고 있다.
이제, 환자는 또 다른 증상을 언급한다. "그리고 몇 일째 기침도 계속 나오고 있어요." 이로써, 기침이라는 또 다른 새로운 증거가 추가된다. 이 새로운 증거를 통해 의사는 환자의 상태를 더욱 정확하게 파악할 수 있게 된다. 기침이라는 증상은 감기의 다른 흔한 특징 중 하나이기 때문에, 이 정보를 바탕으로 환자가 감기에 걸렸을 확률을 다시 한번 업데이트해 더욱 근거있는 사후 확률 P(감기오한,기침)P(감기∣오한, 기침) 을 만들 수 있다.
P(감기오한, 기침)=P(오한, 기침감기)×P(감기)P(오한, 기침)P(\text{감기}|\text{오한, 기침}) = \frac{P(\text{오한, 기침}|\text{감기}) \times P(\text{감기})}{P(\text{오한, 기침})}
위 식에서 P(오한,기침)P(오한,기침)는 동시에 오한과 기침을 동시에 겪을 결합 확률이다. P(오한,기침감기)P(오한,기침∣감기)는 환자가 감기에 걸렸을 때 동시에 오한과 기침을 동시에 경험할 확률로, P(오한감기)P(오한|감기) 와 마찬가지로 오랫동안 연구되어온 연구나 의사가 그동안 쌓아온 경험으로부터 끌어낼 수 있다.
이러한 접근을 베이즈 확률론에 기반한 접근 방식이라고 부른다. 이를 통해 의사는 단순히 사전 경험과 일반적인 통계만을 바탕으로 한 추정에서 벗어나, 여러 증거를 조합하며 보다 정확한 진단을 내릴 수 있게 된다.

베이즈 확률론과 고전적 확률론의 직관적 비교

이 이야기를 통해 베이즈 확률론이 고전적 확률론에 비해 가지는 의미를 유추할 수 있다. 환자에 대한 의사의 이해가 새로운 증거가 주어지면 시간이 지남에 따라 발전할 수 있다는 것이다. 반면, 고전적 확률론에서는 모든 정보가 처음부터 주어졌다는 것을 전제한다. 이는 확률을 계산할 때 모든 가능한 결과와 그 결과의 확률을 미리 알고 있어야 한다고도 바라보아질 수 있다. 고전적 확률론이 접근 방식이 베이즈 확률론과 비교할 때 연역적이라고 평가받는 이유도 바로 이것이다.
이들의 관점 차이를 조금 더 잘 이해하기 위해 이제 아까 환자를 진단하는 의사의 이야기를 이어서 해 보자. 의사가가 병원에 온 환자가 감기인지 아닌지 여부를 판단하기 위해 어떤 것을 추가적인 증거로 삼을 수 있을까 곰곰이 고민하던 중, "환자가 머리숯이 없다" 는 특징이 눈에 들어온다. 베이즈 확률론과 고전적 확률론의 차이는 이때 가지는 의사의 태도의 차이를 관찰해 볼 때 잘 드러난다. 의사가 베이지안이라면, 이런 독특한 정보도 환자의 진단에 영향을 줄 수 있는 새로운 증거로 긍정적으로 고려해볼 수 있다.
P(감기오한, 기침, 탈모)=P(오한, 기침, 탈모감기)×P(감기)P(오한, 기침, 탈모)P(\text{감기}|\text{오한, 기침, 탈모}) = \frac{P(\text{오한, 기침, 탈모}|\text{감기}) \times P(\text{감기})}{P(\text{오한, 기침, 탈모})}
만약 머리숯이 없는 상태가 오한을 더 느끼게 만든다거나 특정 질병과 통계적으로 유의미한 관계가 있다면, 이 정보는 사후 확률을 업데이트하는 데 사용될 수 있기 때문이다. 물론, 이런 관계가 실제로 존재하는지는 별도의 연구와 데이터가 필요하겠지만, 베이즈 확률론의 접근 방식은 이론적으로 이런 유연성을 제공한다.
P(감기오한, 기침)>P(감기오한, 기침, 탈모)P(\text{감기}|\text{오한, 기침}) > P(\text{감기}|\text{오한, 기침, 탈모})
반대로, 의사가 고전적 확률론주의자(빈도주의자)라면 "머리숯이 없다"는 조건이 데이터나 기존의 통계적 분석에 기반하지 않는 한, 이를 확률 계산에 직접적으로 포함시키는 것이 어렵다. 따라서, 머리숯이 없는 상태와 감기 사이의 관계가 명확히 입증되지 않았다면, 이 정보는 진단 과정에서 긍정적으로 여기지 않을 가능성이 높다.
베이즈주의자들에게 사전확률로 사용된 P(감기)P(감기) 도 마찬가지다. 베이즈주의자들은 사후확률을 통해 이 사람이 실제로 감기 환자일 확률을 갱신할 수 있지만, 빈도주의자들은 병원에 온 이 사람이 감기에 걸렸을 확률을 계산하기 위해 전 세계의 모든 사람들 중 감기가 걸린 사람들의 확률인 P(감기)P(감기) 를 사용하는 것 자체를 어불성설이라고 느낄지도 모른다. 어떤 방법으로든 환자가 감기일 확률은 계산될 수 있으나, 확률을 바라보는 방식이 다르다.

베이즈 정리의 응용: 나이브 베이즈 알고리즘

나이브 베이즈 알고리즘은 베이즈 확률론을 기반으로 하는 강력한 분류 방법이자 특징 선택(feature selection) 방법이다. 나이브 베이즈는 각기 다른 '증거'들이 독립이라는 가정 하에 특정 가설의 확률을 계산한다.
의사가 환자가 감기에 걸렸는지 진단하는 상황을 생각해보자. 우리는 오한과 기침을 경험하는 환자가 감기에 걸릴 확률 P(감기오한, 기침)P(\text{감기}|\text{오한, 기침}) 을 계산하고자 했다.
P(감기오한, 기침)=P(오한, 기침감기)×P(감기)P(오한, 기침)P(\text{감기}|\text{오한, 기침}) = \frac{P(\text{오한, 기침}|\text{감기}) \times P(\text{감기})}{P(\text{오한, 기침})}
이 확률을 구하기 위해서는 우변의 P(오한, 기침감기)P(\text{오한, 기침}|\text{감기}), P(오한, 기침)P(\text{오한, 기침}), P(감기)P(\text{감기}) 을 계산해야 한다. 아까 의사가 공부를 열심히 해서 이들을 모두 알고 있다고 이야기했다. 여기까지는 문제가 없다. 이제, '탈모'라는 새로운 증거가 추가되면, 나이브 베이즈 알고리즘은 이 새로운 증거를 기존의 정보와 결합하여 감기에 걸렸을 확률을 다시 계산한다. 서로 독립인 두 사건이 동시에 발생할 확률은 두 확률의 곱이다. 나이브 베이즈 알고리즘은 오한과 기침이 동시에 발생한다라는 증거와 탈모라는 증거가 독립일 것을 가정하므로, 분모의 P(오한, 기침, 탈모)P(\text{오한, 기침, 탈모}) 는 다음과 같이 계산될 수 있다.
P(오한,기침)×P(탈모)P(오한,기침)×P(탈모)
P(오한, 기침, 탈모감기)P(\text{오한, 기침, 탈모}|\text{감기}) 는 나이브 가정에 따라 다음과 같이 계산될 수 있다.
P(오한,기침감기)×P(탈모감기)P(오한,기침∣감기)×P(탈모∣감기)
이러한 분해 덕분에 나이브베이즈 알고리즘을 이용하면 새로운 증거가 추가될 때마다 사후 확률을 빠르게 업데이트할 수 있어 대규모 데이터셋에서 적용이 가능하다. 이 계산적 효율성은 증거 간의 독립성 가정에서 비롯된다. 나이브 베이즈의 주요 가정인 증거 간의 독립성은 실제 상황에서 완벽히 만족되기 어렵다. 실제로, 많은 경우에 증거들 사이에는 어느 정도 상관관계가 존재할 수 있다. 예를 들어, 오한과 기침은 감기의 증상으로 서로 관련이 있을 가능성이 높다. 이러한 상관관계를 무시한 모델이기 때문에 잘못된 결과를 만들 수 있다는 점을 유념해야 한다.
글을 쓰는 데 참고한 자료입니다.
1.
작성 중입니다.
글을 쓰는 데 반영된 생각들입니다.
1.
2.
이 글은 다음 글로 이어집니다.
1.
작성 중입니다.
바로가기
다빈치 작업실 : 블로그 홈
생각 완전체 : 글 그 자체. 블로그 포스팅