🟢

b3.4_3.1. title: 분류는 가설공간을 만드는 일이다.

생성

prev summary

🚀 prev note

♻️ prev note

next summary

🚀 next note

♻️ next note

b3.4_3.1__1.1. title: Overfitting 과 Underfitting 도 결국 휴리스틱(직관)이다.

관련 임시노트

9 more properties

이미지를 포함하여, 어떤 데이터를 특정 클래스로 분류(classification) 하는 등의 판단을 하기 위해서는 가설을 세워야 합니다. 가설이라는 단어에 대해 어렵게 느낄 필요는 없습니다. 우리는 은연중에 어떤 판단을 할 때 항상 가설을 세우기 때문입니다. 예를 들어, 당신이 “친구와 오후 6시에 만나기로 했어도, 친구가 급하게 화장실을 가야만 했다면, 5분쯤 지각하는 것 정도까지는 참아줄 수 있지!” 라고 말했다고 해 봅시다. 이 말은 이렇게 해석할 수 있습니다. “상대가 급하게 화장실을 가야만 하는 경우 6시 5분까지 지각 허용” 은 당신이 화내는 기준에 대해 세운 가설입니다.

문제는 이런 가설들이 사람마다 조금씩 다를 수 있다는 데 있습니다. 마음이 여유로운 사람은 급한 사정이 있다면 30분정도는 거뜬히 기다려 줄 수 있을테고, 누군가는 정확히 6시에서 1초라도 늦으면 고래고래 소리를 지르고 말지도 모릅니다. 반대로 세상 어느 사람이든지 동의할 수 있는 부분이 존재합니다. 약속 시간인 6시 이전에 도착하는 경우는 무조건 잘 한 것입니다. 반대로, 친구가 말도 없이 1시간이나 지각해 버리는 경우는 아무도 참아줄 수 없을 겁니다.

당신이 상대방을 만나기 위해 약속 장소로 가고 있다고 해 봅시다. 친구와 오후 6시에 만나기로 했기 때문입니다. 확실한 한 가지 사실은 알고 있습니다. 6시 이전에 가면 아무 문제도 없을 것입니다. 이를 친구가 참아주는 경우에 있어 가장 확실하고 특수한 가설(most specific hypothesis) 이라고 합니다. 문제는 오늘 당신이 급한 일이 있어서 조금 늦을 것 같다는 점입니다. 친구가 급한 일이 있었던 당신의 지각을 얼마나 참아줄 수 있는 사람인지 아직 모릅니다. 진짜 운이 좋으면 6시 59분에 도착하더라도 친구가 아무렇지도 않게 환영해줄지도 모릅니다. 이러한 경우를 친구가 참아주는 경우에 있어 가장 넓은 범위의 일반적인 가설(most general hypothesis) 이라고 합니다. 가장 특수한 가설과 가장 일반적인 가설 사이에는 59분이라는 간격이 있습니다. 이를 버전 공간(version space) 라고 합니다.

그림 (참고1)

강의에 등장한 위 이미지를 통해 이해를 굳혀 봅시다. 우리는 (+) 기호를 분류해낼 수 있는 가설을 만들어야 하는 상황입니다. 가설공간은 직사각형 형태로만 그릴 수 있다는 전제 하에, 위 그림에서 가장 일반적인 가설은 가장 진한 회색 직사각형 G 입니다. 반면, 위 그림에서 가장 특수한 가설은 가장 연한 회색 직사각형 S 입니다. 그 사이의 공간 C 는 버전공간입니다.

몇 가지 개념을 더 배워 보겠습니다. 이렇게 그려낼 수 있는 다양한 공간들을 가설 공간(hypothesis space)이라고 합니다. 이번 설명에서 가설 공간을 그려낼 때를 다시 돌이켜 봅시다. ‘가설공간을 그릴 때에는 직사각형 형태로만 그려야 한다.’ 라는 전제조건을 걸어 주었습니다. 이러한 전제 조건을 가설 집합(hypothesis set) 에서 선택된 가설이라고 부릅니다(참고2).

그래서 머신러닝을 통해 컴퓨터에게 분류를 시키기 위해서는 다음과 같은 과정을 거쳐야 합니다. 우리가 가지고 있는 데이터를 돌아보며 가설 집합에서 가설을 골라냅니다. 위 예에서 원형으로 가설 공간을 만들 수 있도록 허락하지 않고 직사각형으로 만들라고 강제했던 것처럼, 가설 집합에서 가설을 골라내는 과정에는 인간의 경험과 직관이 개입됩니다(to1). 인간의 직관이 개입된다는 의미를 살려, 딥러닝에서는 경험적인 편향(inductive bias)이라고 부르기도 합니다(참고3,참고4). 그리고 나서 컴퓨터에 데이터와 함께 가설을 입력합니다. 예를 들어 ‘데이터1: 급한 볼일이 있고, 내가 슬픈 일이 있었던 날, 15분 늦는다면 친구가 화를 내는구나.’ ‘데이터2: 내가 슬픈 일이 있었던 날, 20분 늦는다면 친구가 화를 내는구나.’ 와 같은 관측값들과 함께 ‘친구는 내가 슬퍼 보이는지와는 별 상관없이, 급한 볼일이 있는지만 화를 내는 기준으로 삼는 것 같다’ 라는 가설이 입력되는 셈입니다. 따라서 머신러닝을 통해 분류작업이 가능하게 된다는 것은, 가설과 데이터를 바탕으로 버전 공간에서 가장 적절한 분류 경계가 찾아지는 것, 즉 최종 가설(final hypothesis)이 찾아지는 것을 의미합니다.

version space 를 정의할 때 노이즈(혹은 outlier) 는 전혀 고려되지 않는 대상인걸까

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

2_1_3_2_1.1.1. title: 복잡한 규칙이 학습과 발전에 악영향을 준다.

A major drawback of version space learning is its inability to deal with noise: any pair of inconsistent examples can cause the version space to collapse, i.e., become empty, so that classification becomes impossible.[1] One solution of this problem is proposed by Dubois and Quafafou that proposed the Rough Version Space,[3] where rough sets based approximations are used to learn certain and possible hypothesis in the presence of inconsistent data.

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

b3.4_3.1__1.1. title: Overfitting 과 Underfitting 도 결국 휴리스틱(직관)이다.

ref : 생각에 참고한 자료입니다.

27:20, 가장 특수한 가설과(the most specific hypothesis) 가장 일반적인 가설(the most general hypothesis) 사이의 범위를 version space 라고 부른다.

알 수 없는 목표 함수(Unknown target function)이 다음과 같이 주어지고 이들의 각 매칭들이 Training 예제들로 주어졌을 때 우리는 이를 딥러닝과 같은 기계학습으로 이를 학습시키고자 합니다. 이 경우 hypothesis set에서 가장 효율적인 학습 알고리즘을 A를 선택한 후 선택된 알고리즘의 결과물로 최종 가설 함수 f를 추론할 수 있게 됩니다. 이 때 hypothesis set는 매우 무한히 존재
하며, 대표적으로는 Support Vector Machine, 로지스택 회귀와 같은 분류법(Classification)과 Support Vector Regression, 선형 회귀, 가우시안 프로세스와 같은 회귀법(Regression)이 있습니다.

10:30, inductive bias 는 새로운 데이터에 대해 좋은 성능을 내기 위해 모델에 사전적으로 주어지는 가정을 의미한다. SVM : "기저에 margin 최대화된 classifier 가 가장 좋은 분류기다." CNN : "이미지는 지역적인 정보를 추출하는 것이 중요하다". RNN : "데이터의 순차적인 구조가 중요하다."

Inductive biases란, 학습시에는 만나보지 못했던 데이터를 추론함에 있어 네트워크가 가지고 있는 특정한 '가정'을 의미합니다. CNN을 예로 들자면, CNN은 Convolutional filter를 사용하여, 한 픽셀 씩 연산하지 않고, filter size 단위로 연산하기 때문에 주변에 있는 픽셀간의 관계를 좀 더 잘 뽑아낼 수 있는 특징 (Locality)을 가집니다. 하지만 트랜스포머 기반의 모델 같은 경우에는, 이미지 전체적으로 보았을 때의 관계성은 잘 찾아내지만 (Self-attention), CNN과 같은 inductive bias는 가지지 못해 좀 더 학습에 어려움을 겪어, 좀 더 많은 데이터 셋을 사용해야 할 필요성을 가지는 것입니다.