Search
🔵

ba2.4.4.1. title: 머신러닝 문제는 일관된 레이블의 데이터, 최고의 품질을 보증하는 것이 중요하다. 그 무엇이든 하기 전에 직접 최고의 레이블링을 해 보아라.

생성
🚀 prev note
♻️ prev note
🚀 next note
14 more properties
데이터를 아웃소싱하는 한이 있더라도, 내가 정한 정확한 기준이 있어야 난이도를 직접 가늠해볼 수 있다. 그래야만 의뢰 결과물과 나의 결과물을 정성적으로 비교해볼 수 있다는 점을 인지하라.
디어에서 일을 할 때, 재석이형은 샘플 데이터만 구매해서 실제로 시간축을 반영한 모델이 효과가 있을지를 알아보자고 제안했다. 데이터 외주를 맡기는 데 얼마 정도의 가격이 드는지 알아보는 것이 당연 첫 번째로 해야 할 일이였다.
내가 데이터 외주 업체에게 요구하는 결과물에 대해서 확신이 없었던 과거를 떠올려 보자. Detection 태스크가 더 적절한지, segmentation 태스크가 더 적절한지에 대한 확신도 없었다. 직접 레이블링을 해볼까 생각도 했지만, 레이블링 도구는 정말 불편했고 손에 익지도 않았다. 도구가 안 좋은 것인지, 애초에 이렇게 하면 안 되는 것인지도 몰랐다. 그래서 견적을 정확히 얻어낼 수 없었다. ‘그냥 얼마쯤 걸려요…?’ 정도로 질문할 수밖에 없었다. 그런 아쉬움을 다시는 되풀이하지 마라.
명확하게 I/O 명세를 파악하고 데이터 요구조건에 맞는 데이터를 직접 만들어보며 우리 수준과 주어진 리소스 내에서 해결할 수 있는 문제인지를 판단해야 한다(from1). 5년을 내다보고 리소스를 투자하는 연구개발이 아니라, 어떤 목적을 가지고 이미 알려진 기술을 통해 당장 돌아가는 프로덕트를 만들어내려고 하는 사람들, 당장 3달 뒤 마감을 쳐야 하는 학교 프로젝트 등에서는 반드시 포함돼야 하는 과정이다.
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.
1.
None
from : 과거의 어떤 생각이 이 생각을 만들었는가?
1.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?
1.
2.
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?
1.
None
참고 : 레퍼런스
1.
None