🌍

b3.4_2.1_1. title: 이산적인 각각의 점들을 임의의 확률밀도함수로 바꿔서 관측된 데이터가 불연속이라는 한계를 극복할 수 있다.

생성

prev summary

🚀 prev note

♻️ prev note

next summary

🚀 next note

♻️ next note

b3.4_2.1_2. title: KDE(커널밀도추정) 에서도 결국 커널함수에 대한 인간의 직관이 개입된다. KDE에는 인간이 샘플링된 데이터로 자연의 분포를 알 수 없다는 것이 전제되어 있다.

관련 임시노트

9 more properties

그림(ref2)

히스토그램은 이산적인 데이터를 적당한 구간으로 나누고 해당 구간 안에 포함되는 데이터포인트들의 개수를 세어 만들어낸 분포 시각화를 의미한다(ref3). 예를 들어 나와 친한 10명의 친구들의 키를 수집하고, 친구들의 키를 5cm 구간으로 나누어 시각화하면 그림(ref2)의 왼쪽과 같은 히스토그램을 만들 수 있다.

그런데 나는 저렇게 삐죽거리는 히스토그램이 딱히 마음에 들지 않는다. 아무리 훌륭하게 구간을 나누어도, 구간의 경계에서 불연속성을 띤다. 히스토그램이 이렇게 삐죽거릴수밖에 없는 이유의 본질에는 자연에서 추출해 관측한 데이터의 개수가 유한하기 때문이다. 이러한 히스토그램을 사용하지 않고 그림(ref2)의 오른쪽 파란색 그래프같이 연속 함수로 스무스하게 데이터를 표현하고 싶다면 어떻게 해야 할까?(ref6)

이산적으로 관측된 각각의 데이터 포인트들을, 관측된 데이터 포인트를 중심으로 서서히 줄어드는 안개의 일종으로 보는 것이다(ref4). 마치 그림(ref2) 중 오른쪽 그래프에 보이는 빨간 점선처럼 말이다. 정규분포와 같이 좌우 대칭이고 연속인 함수가 빨간 점선의 후보로 많이 사용된다. 우리는 고등학교 때, 연속함수와 연속함수를 더하면 연속함수가 된다는 사실을 배웠다. 빨간 점선 각각을 함수로 보고, 이들 함수를 모두 더하면 파란색 분포를 만들어줄 수 있다.

이는 비단 위와 같은 1D 데이터 분포에만 사용할 수 있는 것은 아니다. 2D 의 경우에도 동일한 논리가 적용된다. 위와 같이 퍼져 있는 각각의 점들에 아래 그림과 같은 형태의 분포가 할당되어 있다고 생각해 보자.

그림(ref1)

그림(ref5): 형태만 보고 x, y, z 축의 값을 신경쓰지는 말자.

이번에는 그림(ref1)에 보이는 연속함수

z=f(x,y)

이 그림(ref2)의 오른쪽 빨간 점선같은 존재가 된다. 각각의 이산적인 점을 연속함수로 보고 전부 더하면, 그림(ref5)와 같은 결과를 얻을 수 있다.

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

None

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

•

나중에 보니 Mean Shift Algorithm은 KDE의 일종이었다(ref7,ref8).

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

b3.4_2.1_2. title: KDE(커널밀도추정) 에서도 결국 커널함수에 대한 인간의 직관이 개입된다. KDE에는 인간이 샘플링된 데이터로 자연의 분포를 알 수 없다는 것이 전제되어 있다.

ref : 생각에 참고한 자료입니다.

But this would only be true for a single variable. In the case of two variables, instead of a 2D bell-shaped curve, we will have a 3D bell curve as shown below:

Comparison of the histogram (left) and kernel density estimate (right) constructed using the same data. The six individual kernels are the red dashed curves, the kernel density estimate the blue curves. The data points are the rug plot on the horizontal axis.

이산 데이터들을 적당히 구간을 나누어 그 갯수를 세어 전체 분포를 보는 방식을 히스토그램(Histogram)이라고 합니다. 히스토그램은 이산 데이터의 분포를 추정하는 가장 손쉬운 방법입니다. 그런데 그만큼 한계도 명확합니다. 일단 폭(bandwidth)을 어떻게 정할지에 따라 전체 분포의 모양이 크게 달라집니다. 히스토그램의 경우 경계가 불연속이며 고차원의 데이터에 대해 희소한 결과(데이터가 없는 빈공간을 너무 많이 만들어냄)를 보여줍니다. 

커널 밀도 추정(Kernel Density Estimation) 기법의 기본 아이디어를 풀어 설명하자면, 관찰된 데이터들을 경계가 명확한 점으로 보는 것이 아니라 경계가 흐리멍텅한 안개로 보자는 것입니다. 즉, 170.1이라는 점이 관찰되었을 경우, 우리 실제 데이터 내에는 딱 170.1이 1개만 있고, 170.0이나 170.05은 0개가 있는게 맞습니다. 하지만, 그렇게 빡빡하게 굴지말고 조금 관대하게 봐줘서, 정답을 완벽하게 맞추지 못했더라도 부분점수를 주는것마냥, 170.0은 0.1개쯤, 170.05는 0.2개쯤, 170.1은 0.5개쯤 있다고 봐주자는 것이지요. 

2d density plot

내가 관측한 데이터의 분포로부터 확률 분포를 만들어 보고 싶은데, 어떠한 사전 정보나 지식 없이 측정으로만 맨바닥부터 만들려면 어떻게 해야 하는지에 대한 궁금증이 있을 텐데, 조금 이상하지만 그런 방법이 있습니다. 그것을 얘기하다 보면, "음 그렇군" 정도로 넘어갈 수 있을 테니, 조금은 안심입니다. 이런 추정방법을 비모수적 밀도 추정 방법 - Non Parametic Density Estimation이라고 합니다. … 확률분포를 Estimation하는 방법에는 Histogram을 이용해서 추정하는 방법이 가장 간단한데, 이때 Histogram은 bin size 때문에 그 정밀도가 많이 떨어집니다.

5:55, Mean Shift Algorithm 이 동작하는 방식은 non-parametric density estimation 의 일종이다.

13:20, 이러한 방식은 kernel density estimation 이라고 불리기도 하고, parzen window estimatino 이라고 불리기도 한다.