Search
🔵

b3.4__1.3. title: 3주차 문제 답안지

생성
prev summary
🚀 prev note
♻️ prev note
next summary
🚀 next note
♻️ next note
💡 아이디어조각
11 more properties

문제 1

다음 중 틀린 것을 모두 고르시오.
1.
KNN: 게으른 학습 또는 사례중심 학습이라고 한다.
O
2.
KNN: 데이터의 차원이 증가하면 차원의 저주 문제가 발생한다.
O
3.
KNN: 탐색할 이웃의 수(K)가 클 수록 과적합이 발생한다.
X
4.
KNN: 학습데이터 내에 끼어있는 노이즈의 영향을 크게 받지 않는다.
O
5.
KNN: 최적 이웃의 수(K)와 거리 척도(distance metric)는 연구자가 실험 결과에 따라 임의로 선정한다.
O
6.
의사 결정 나무(DT): 모든 샘플이 한 클래스에 속한다면 지니 불순도는 0이다.
O
7.
DT: 의사 결정 나무는 지니 불순도를 최대화하도록 학습한다.
X
8.
DT: 샘플들의 클래스가 균등하게 분포되어 있다면 지니 불순도는 최대가 된다.
X
9.
DT: 지니 불순도를 통해 의사 결정 나무가 변수 공간을 잘 나누었는지 평가할 수 있다.
O
10.
DT: 전역 최적을 달성할 수 있는 모델이다.
X
11.
DT: 나무의 깊이가 깊어질 수록 더욱 복잡한 관계를 표현 가능하다.
O
12.
새로운 관측 데이터에 대해 모델이 얼마나 잘 동작하는지를 의미하는 용어를 generalizability라고 한다.
O
13.
regression 모델은 classification을 수행할 수 없다.
X
14.
Training data는 feature vector를 포함한다.
X
15.
precision과 recall을 더하면 항상 1이 된다.
X
16.
precision과 recall을 산술평균한 값을 F1 score라고 부른다.
X
17.
모든 케이스를 positive로 예측하면 recall을 1로 만들 수 있다.
O
18.
모델이 랜덤으로 결과를 낸다면 ROC AUC는 0.5가 된다.
X
19.
ROC AUC의 값이 클수록 일반적으로 더 좋은 분류 모델이다.
O
20.
서로 다른 분류 모델을 하나의 수치로 비교하기 위해 ROC AUC가 쓰일 수 있다.
O
오차 +- 1개까지 정답으로 인정
14: 출제 의도가 궁금함.

문제 2+3

문제 2

아래 이미지에 대해 성능 지표 수치를 작성하라.
(1) sensitivity: 5/12
(2) specificity: 3/10
(3) negative predictive value: 7/14
(4) precision: 5/8
(5) F1 score:
= 2*(5/8 * 5/12) / (15/24 + 10/24)
= 2(5/8*5/12) / (25/24)
= (25/48)(25/24)=(1/48)/(1/24)=1/2\cfrac{(25/48)}{(25/24)}= (1/48)/(1/24)=1/2
= 1/2
(recall: 5/12)
각 0.2점

문제 3

문제 2의 문항에서 등장한 용어들의 의미와 용도를 코로나 관련 논문을 참조하여 서술하시오.
sensitivity :
각 0.2점
보너스 문제
ROC curve의 현 위의 점의 의미는 무엇인가?
어떤 모델의 threshold 를 설정했을 때 특정 FP 를 만족한다면, 해당 모델은 특정 TP 를 만족한다는 뜻.
현의 휨 정도가 의미하는 것은 무엇인가?
어떤 모델의 현이 많이 휘었다는 것은 모델의 성능이 현이 덜 휜 모델에 비해 전반적으로 좋다는 것을 의미합니다.
찾은 논문에 적용해서 해석해보세요!

문제 4+5

KD-Tree

다차원 데이터 포인터를 공간 분할하는 자료구조
Nearest neighbors search
KNN
descriptor matching
Recursive partitioning
statistical decision tree

문제 4, 5

nearest neighbor search, 최근접 이웃 탐색은 주어진 점 세트 내에서 새로운 점과 가장 가까운 점을 찾는 최적화 문제이다. 이 ‘점’은 다양한 형태로 응용될 수 있다. 데이터 문제에서 각 점은 데이터가 된다. 또한 데이터는 다차원 특징으로 구성된다. 새로운 데이터는 가장 가까운 특징에 기반해서 클래스가 결정된다.
아래의 트리를 통해 탐색 과정을 최적화 해보자.
새로운 데이터: (6, 7)
k-d tree root: (7, 2)

문제 4

다음의 거리 측정 방법을 참고해 새로운 데이터와 기존 데이터와의 거리를 측정하라.
4,7
1.
Euclidean distance
아래 표 참고
2.
Manhattan distance
아래 표 참고
3.
Minkowski distance
p 를 주셔야 하는 것 아닌가요?
6,7
Euclidean
Manhattan
?
7,2
sqrt(26)
6
5,4
sqrt(10)
4
9,6
sqrt(10)
4
2,3
sqrt(32)
8
4,7
2
2
8,1
sqrt(40)
8

문제 5

새로운 데이터 (6, 7)과 기존 데이터의 k-d tree를 바탕으로 다음을 구하라.
1.
가장 가까운 데이터와의 거리(L2)
a.
2
2.
1번을 탐색하는 순서와 결정 트리의 분기 조건들
a.
(7,2) → (5,4) → (4,7)
3.
결정 경계의 시각화
그 외 생각해볼 문제들
(나이, 연봉) 과 같이 스케일의 차이가 큰 특성에 대해서는 L2 거리가 적절한 측정 방식인가? descriptor matcher의 거리 측정 방식은 무엇이 있는가?
kd tree는 최근접 이웃을 반드시 찾을 수 있는가?
kd tree에서 데이터의 차원이 크면 어떤 일이 발생하는가?
트리의 분할 기준은 무엇이 적절한가?
최적화를 위한 가지치기는 어떻게 진행되는가?
k-d tree...
피드백 : 재미있는 이야기이고, 이것때문에 문제출제가 오래 걸린 것 아닐까 하는 생각이 들었어. 다만 문제를 결국 출제하지 못해서 너가 생각한만큼 우리가 깊은 뜻을 알아가지는 못한 것 같아. 만약 이걸 문제가 아니라 칼럼으로 재밌게 써봤으면 어땠을까 하는 아쉬움이 있어! 고생했어~

문제 6+7

1.
x ≤ 6
a.
if true:
i.
y ≤ 1
1.
if true:
a.
class 0
2.
else:
a.
class 1
b.
else:
i.
class 0

문제 8

문제 9

 ㅠㅠ → 이 문제는 꼭 여유되는대로 다시 풀어볼 계획

문제 10

 ㅠㅠ → 이 문제는 꼭 여유되는대로 다시 풀어볼 계획
parse me
1.
None
from
1.
None
supplementary
1.
None
opposite
1.
None
to
1.
None
참고
1.
None