Search
🔵

ba2.4_1.1.1. title: 데이터 레이크(‣) 개념은 ETL(‣)에서 변환(Transfrom)이 어렵고 복잡해지자, 이를 후순위로 미루어 ELT(‣)로 만드려는 흐름과 관련이 있다.

생성
🚀 prev note
🚀 next note
14 more properties
그림 (참고2)
빅데이터 시대라고 한다. 데이터 소스로부터 쏟아져들어오는 데이터들이 점점 많아지고 있다. 심지어 들어오는 데이터의 형식은 데이터 소스마다 일관되지 않은 경우들도 있다. 어떤 데이터는 정형으로, 어떤 데이터는 비정형으로 우리 시스템에 들어온다(참고3). 간단한 예를 들어, 어떤 데이터는 테이블 형식으로, 어떤 데이터는 이미지 타입으로, 어떤 데이터는 json 형태로 들어온다고 생각해볼 수 있다.
데이터 소스들은 많아지고 데이터의 형태도 다각화되는데, 데이터 웨어하우스(‣ Data warehouse (DW)) 포맷에 맞추어 변환(Transform)(참고4:나머지 데이터와 통합할 수 있도록 정보의 구조를 변경하는 작업)하는 과정을 항상 거쳐야만 했다. 당연히 데이터를 저장할 때마다 규약에 맞추는 작업은 쉬운 작업이 아니다.
그래서 마인드를 바꾸게 되었다. 데이터 저장소의 가격이 과거에 비해 크게 저렴해진만큼(참고7), 변환을 고민하기 전에 일단 데이터 소스로부터 데이터를 추출(Extraction)(참고5:데이터 소스에서 데이터를 가져오는 행위)하여 로드(Load)(참고6:데이터 스토리지 시스템에 보관하는 과정)하자는 것이다. 그리고 필요한 것이 무엇일지는 나중에 고민하자고 하게 된 것이다(참고1,2). 나중에 필요가 생겼을 때, 데이터 레이크에 잘 널부러져 있는 정보를 뽑아올려 데이터 웨어하우스(‣ Data warehouse (DW))에 맞게 변환(Transform)하거나, 특징 저장소(‣ Feature Store)에 변환하자는 생각을 하게 되었다. 그래서 ELT(‣ Extract, Load, Transform (ELT))라는 말이 등장하게 되었다.
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.
1.
None
from : 과거의 어떤 생각이 이 생각을 만들었는가?
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?
참고 : 레퍼런스