🔵

b3.4__1.3. title: 3주차 문제 답안지

생성

prev summary

🚀 prev note

♻️ prev note

next summary

🚀 next note

♻️ next note

문제 1

다음 중 틀린 것을 모두 고르시오.

1.	KNN: 게으른 학습 또는 사례중심 학습이라고 한다.	O
2.	KNN: 데이터의 차원이 증가하면 차원의 저주 문제가 발생한다.	O
3.	KNN: 탐색할 이웃의 수(K)가 클 수록 과적합이 발생한다.	X
4.	KNN: 학습데이터 내에 끼어있는 노이즈의 영향을 크게 받지 않는다.	O
5.	KNN: 최적 이웃의 수(K)와 거리 척도(distance metric)는 연구자가 실험 결과에 따라 임의로 선정한다.	O
6.	의사 결정 나무(DT): 모든 샘플이 한 클래스에 속한다면 지니 불순도는 0이다.	O
7.	DT: 의사 결정 나무는 지니 불순도를 최대화하도록 학습한다.	X
8.	DT: 샘플들의 클래스가 균등하게 분포되어 있다면 지니 불순도는 최대가 된다.	X
9.	DT: 지니 불순도를 통해 의사 결정 나무가 변수 공간을 잘 나누었는지 평가할 수 있다.	O
10.	DT: 전역 최적을 달성할 수 있는 모델이다.	X
11.	DT: 나무의 깊이가 깊어질 수록 더욱 복잡한 관계를 표현 가능하다.	O
12.	새로운 관측 데이터에 대해 모델이 얼마나 잘 동작하는지를 의미하는 용어를 generalizability라고 한다.	O
13.	regression 모델은 classification을 수행할 수 없다.	X
14.	Training data는 feature vector를 포함한다.	X
15.	precision과 recall을 더하면 항상 1이 된다.	X
16.	precision과 recall을 산술평균한 값을 F1 score라고 부른다.	X
17.	모든 케이스를 positive로 예측하면 recall을 1로 만들 수 있다.	O
18.	모델이 랜덤으로 결과를 낸다면 ROC AUC는 0.5가 된다.	X
19.	ROC AUC의 값이 클수록 일반적으로 더 좋은 분류 모델이다.	O
20.	서로 다른 분류 모델을 하나의 수치로 비교하기 위해 ROC AUC가 쓰일 수 있다.	O

오차 +- 1개까지 정답으로 인정

•

14: 출제 의도가 궁금함.

문제 2+3

문제 2

아래 이미지에 대해 성능 지표 수치를 작성하라.

(1) sensitivity: 5/12

(2) specificity: 3/10

(3) negative predictive value: 7/14

(4) precision: 5/8

(5) F1 score:

= 2*(5/8 * 5/12) / (15/24 + 10/24)

= 2(5/8*5/12) / (25/24)

\cfrac{(25/48)}{(25/24)}= (1/48)/(1/24)=1/2

= 1/2

(recall: 5/12)

각 0.2점

문제 3

문제 2의 문항에서 등장한 용어들의 의미와 용도를 코로나 관련 논문을 참조하여 서술하시오.

•

sensitivity : 

각 0.2점

보너스 문제

•

ROC curve의 현 위의 점의 의미는 무엇인가?

◦

어떤 모델의 threshold 를 설정했을 때 특정 FP 를 만족한다면, 해당 모델은 특정 TP 를 만족한다는 뜻.

•

현의 휨 정도가 의미하는 것은 무엇인가?

◦

어떤 모델의 현이 많이 휘었다는 것은 모델의 성능이 현이 덜 휜 모델에 비해 전반적으로 좋다는 것을 의미합니다.

찾은 논문에 적용해서 해석해보세요!

문제 4+5

KD-Tree

다차원 데이터 포인터를 공간 분할하는 자료구조

•

Nearest neighbors search

◦

KNN

◦

descriptor matching

•

Recursive partitioning

◦

statistical decision tree

The principle behind nearest neighbor methods is to find a predefined number of training samples closest in distance to the new point, and predict the label from these.

문제 4, 5

nearest neighbor search, 최근접 이웃 탐색은 주어진 점 세트 내에서 새로운 점과 가장 가까운 점을 찾는 최적화 문제이다. 이 ‘점’은 다양한 형태로 응용될 수 있다. 데이터 문제에서 각 점은 데이터가 된다. 또한 데이터는 다차원 특징으로 구성된다. 새로운 데이터는 가장 가까운 특징에 기반해서 클래스가 결정된다.

아래의 트리를 통해 탐색 과정을 최적화 해보자.

새로운 데이터: (6, 7)

k-d tree root: (7, 2)

문제 4

다음의 거리 측정 방법을 참고해 새로운 데이터와 기존 데이터와의 거리를 측정하라.

4,7

Euclidean distance

•

아래 표 참고

Manhattan distance

•

아래 표 참고

Minkowski distance

•

p 를 주셔야 하는 것 아닌가요?

6,7	Euclidean	Manhattan	?
7,2	sqrt(26)	6
5,4	sqrt(10)	4
9,6	sqrt(10)	4
2,3	sqrt(32)	8
4,7	2	2
8,1	sqrt(40)	8

문제 5

새로운 데이터 (6, 7)과 기존 데이터의 k-d tree를 바탕으로 다음을 구하라.

가장 가까운 데이터와의 거리(L2)

2

1번을 탐색하는 순서와 결정 트리의 분기 조건들

(7,2) → (5,4) → (4,7)

결정 경계의 시각화

그 외 생각해볼 문제들

•

(나이, 연봉) 과 같이 스케일의 차이가 큰 특성에 대해서는 L2 거리가 적절한 측정 방식인가? descriptor matcher의 거리 측정 방식은 무엇이 있는가?

•

kd tree는 최근접 이웃을 반드시 찾을 수 있는가?

•

kd tree에서 데이터의 차원이 크면 어떤 일이 발생하는가?

•

트리의 분할 기준은 무엇이 적절한가?

•

최적화를 위한 가지치기는 어떻게 진행되는가?

k-d tree...

피드백 : 재미있는 이야기이고, 이것때문에 문제출제가 오래 걸린 것 아닐까 하는 생각이 들었어. 다만 문제를 결국 출제하지 못해서 너가 생각한만큼 우리가 깊은 뜻을 알아가지는 못한 것 같아. 만약 이걸 문제가 아니라 칼럼으로 재밌게 써봤으면 어땠을까 하는 아쉬움이 있어! 고생했어~

문제 6+7

x ≤ 6

if true:

y ≤ 1

if true:

class 0

else:

class 1

else:

class 0

문제 8

문제 9

 ㅠㅠ → 이 문제는 꼭 여유되는대로 다시 풀어볼 계획

문제 10

 ㅠㅠ → 이 문제는 꼭 여유되는대로 다시 풀어볼 계획

parse me

None

from

None

supplementary

None

opposite

None

None

참고

None