Search
🔵

컨텐츠 기획을 위한 자료수집 자동화와 문제정의

프로젝트
🚀 prev note
♻️ prev note
9_2_2. title: 인간 개인이 학습하고 창의적인 사고를 하는 원리의 본질은 이해(연결)와 추상화(압축)다. 암기는 자연스럽게 따라오는 것이고, 문자는 추상화와 기록을 도와주는 도구일 뿐이다.
9_1. title: 지식에는 절대적인 밑바닥이나 근본이 없다. (고등학생 때 나의 연역적 사고 집착에 대한 반성)
🚀 next note
♻️ next note
16 more properties

'창의적 산출물' 이 의미하는 바는 무엇인가?

검정색 글씨의 ‘창의적 산출물’이란 솔브잇의 경우에는 ‘컨텐츠 시나리오’야.

EP6 과는 어떠한 관계가 있는가?

트렌드 파악 및 주제 선정에 있어서 항상 진행되는 정보 수집을 효율화 … “SOLVIT 컨텐츠 생성 파이프라인 자체를 개선” 할 수 있는 ‘문제 - 솔루션’ -link iconEP6. Auto Scraping for ME
위 원칙을 지키면서 나의 유즈케이스/문제정의에 집중해 봤어. 형이 준 주제는 ‘크롤링’ 이었지만, 주제를 받고 처음에 던져본 질문은 ‘솔브잇 비디오를 나 혼자 만들어야 한다면 나는 어떤 행동을 할 것인가?’ 였어.
Ep04, 05 비디오 제작 과정을 크게 나누어보면 형이 나에게 큰 틀에서 짜여진 시나리오(전체적인 전개, 문제, 문제 해결 기술, 예시, 유즈케이스 등)를 전달해 준 것이고, 나는 그 이후 과정에 집중한 경향이 있었어. 그래서 ‘앞단에서 무엇이 가장 두려운가?’ 를 고민하게 됐어.
이때 형이 작성준 글에 있는것처럼 그냥 단순히 크롤링 결과가 저장되는 수준, 또는 조금 깔끔하게 정리가 되는 수준이라면 나는 잘 사용하지 않을 것 같다는 생각이 들더라고.
그래서 자료를 수집(이미 있는 것)해서 창의적 산출물을 만들어내기(세상에 없는 것)까지 전체 과정을 메타적으로 톺아 보았어. 그것이 그림에 검정색 글씨로 나타난 부분이야.

어느 부분의 문제를 해결하려는 것인가?

(앞의 이야기에 이어서) 나는 병렬적으로 여러 소스들을 돌아다니는 작업을 별로 좋아하지 않는것같아. 새로운 기술을 접하는 행위가 즐거워야 하는데, 뭔가 탐험하면서 호기심을 충족시키기는 행동이 아니라 삽질에 가깝다는 느낌이 들거든. 조금더 구체화해보면 탐색 과정에서 ‘에휴 또 이런게 나왔는데 난 언제 써보냐…’ 같은 FOMO 계열의 감정들이 생겨나고, 이로 인해 전반적으로 새로운 기술이나 키워드에 대한 탐색을 기피하게 되는 것 같아.
내가 해결하고 싶은 부분은 이 부분이야. ‘새로운 기술을 트래킹하면서 컨텐츠를 만들고 싶은데, 내가 자료를 찾아다니고 싶지는 않음.’ 이 문제의 하위에 형이 언급했던 모든 문제들이 있어.
아래 요인들 → FOMO계열의 감정들을 만듦 → 다시 아래 요인들을 극복할 동기가 소실됨.
1.
탐색 시간의 한계: 각 웹사이트를 매번 방문하고 정보를 찾는 데 많은 시간이 걸림. 여러 플랫폼에서 정보를 동시에 모아야하는 것은 시간과 에너지 소모를 유발함. (형이 언급한 빠른 업데이트도 여기에 속함)
2.
탐색 공간의 한계: 내가 좋다고 생각한 유료 컨텐츠 등을 까먹거나 놓치기도 함.
3.
시의적절성: 이들이 소개한 기술이나 지식은 지금 당장은 필요가 없을지라도 추후에 유용하게 사용될 수 있음. 하지만 언제나 내가 필요로 하는 정보를 업로드하리라는 보장이 없음.
4.
중복가능성: 같은 내용의 정보를 여러 번 접하게 되는 경우, 또는 내가 궁금해하는 정보의 subset 각각 다른 부분을 언급하는 컨텐츠의 경우 수작업으로 이들을 정리해 주는 것은 비효율적임.
위에 지적한 문제들은 리서치라는 행위에서 나타나는 제너럴한 문제들이야. 따라서 대부분의 유즈케이스에 맞게 이 문제들을 풀어내는 일은 OpenAI같은 회사에서나 해야 하는 일이 아닐까. 우리는 ‘SOLVIT 스타일의 기술 컨텐츠를 만들어내는 일에 있어서 - 상기 1~4의 문제’를 정의하고 풀어야 한다고 생각했어.

사실 이해와 창의적 이해의 차이는 무엇인가?

이것을 구분하는데 영감을 준 것은 첫 번째로 정보처리이론의 장기기억-단기기억 모델이야. ‘일부 기억은 단기기억으로 보내지고 일부 기억은 인코딩이 돼서 장기기억으로 보내진다’고 하잖아. 두 번째는 안드레아 캐퍼시 형님께서도 언급했다는 이중시스템이론이야(ref2). 시스템1 사고와 시스템 2사고로 나누는 모델이 정답은 아니지만, 어떤 사고를 LLM에게 맡길 것인지를 결정해야 하는 요즘같은 세상에서 정말 유용할 것 같지 않아?
이들과 비슷하게, 어떠한 정보를 처리하는 것은 필요한 사고의 능력과 관련하여 구분해볼 수 있다고 생각했어. 그림의 전처리 단계는 웹 브라우저에서 텍스트나 이미지 등 컨텐츠 영역을 식별해 내는 단계야. 전형적인 시스템 1 사고인거지. 사실 이해 단계는 대본만 가지고도 추출할 수 있는 정보들을 중심으로 한 이해를 의미해. 약간의 사고는 필요하지만 이것도 시스템 1 사고에 가까워. 창의적 이해 단계는 시스템 2 사고의 일종으로, 기존에 내가 경험적으로 가지고 있는 생각이나 내가 나의 언어로 정의한 추상을 기반으로 생각을 끌어낸 경우를 표현하고 싶었어. 이때 중요한 것은 단순히 ‘시스템 2 사고다’ 가 아니야. 내가 창의적 이해라는 표현을 굳이 사용한 이유는 내 뇌에는 인코딩되어 있지만 디지털상에는 표현되지 않는 수많은 생각들이 동원되어 사고한다는 점을 강조하고 싶었어. 이건 LLM이 하기 어렵기도 하지.

중복 내용 처리는 왜 꼭 사람이 해야하는가?

사실 이해 단계는 시스템 1 사고에 가까운만큼 LLM도 잘 할 것이라고 생각해. 하지만 그렇게 추출된 정보를 어떤 정보와 병합할지를 자동화하는 것은 굉장히 어렵다고 생각해. 그래서 중복 내용 처리, 특히 어떤 record(좋은 표현이 생각나지 않는데, 사실 이해 단계로부터 추출된 정보라고 할게)들이 사실상 같거나 다른 것인지를 판단하는 일은 사람의 지능이 개입해야 한다고 생각했어.
우리가 최근 공부한 ‘Self-Discover’을 예로 들어 볼게. 만약 과거에 ‘프롬프트 엔지니어링’ 이라는 기술이 하나의 record로 저장되어 있다고 생각해 보자. ‘프롬프트 엔지니어링’은 명확한 기술 키워드야. 그럼 ‘Self-Discover’이라는 기술 키워드를 LLM이 발견했을 때는, 이걸 ‘프롬프트 엔지니어링’과 중복된 내용으로 바라보아야 할까, 아니면 별도의 문서로 다루어야 할까?(ref1)
이런 생각도 들더라고. ‘Self-Discover’은 프롬프트 엔지니어링의 ‘일종’ 이니까 상하위관계나 연관관계로 표현할수도 있지 않을까? 그럼 우리가 탐험할 수 있는 지식 그래프를 만들 수 있지 않을까? … 하지만 어느 부분부터 연관성이 있다고 판단할 수 있는지는 LLM이 기준으로 하는 것이 아니라, 전적으로 나의 뇌에 인코딩된 정보를 기준으로 해야 하는 경우가 훨씬 많기 때문에 그러기는 어렵겠다고 생각했어.
어떨때는 ‘프롬프트 엔지니어링’이라는 추상을 대표하는 간단한 방법론만으로도 문제해결이나 이해에 충분할 때도 있지만, ‘Self-Discover’ 정도로 구체적이고 복잡한 방법론이 필요할 때도 있는 것은 어떤 정답이 있을거야… 하면서 뇌를 싸매기보다는 나의 직관과 나의 뇌세포를 최대한 활용하는 것이 낫지 않겠냐는거지.

그래서 이것으로 어떤 컨텐츠를 만들 것인가?

이번에 아싸리 생각했던 것보다 훨씬 쉬운 컨텐츠를 만들어 보면 좋겠다 -수민
지금 내가 한번 더 회신한 이야기를 바탕으로, 어디까지 우리가 ‘컨텐츠의 영역’이라고 하고 끊어낼 것인지를 고민할 수 있을것같아. 나도 난이도는 낮지만 전하고자 하는 말과 인사이트는 담은 컨텐츠를 만들고 싶은데, 컨텐츠의 난이도를 낮추기 위해 어떤 선택을 할 수 있을지 고민이 되네.
아래 목록이 완성된 것은 아니지만, 일단 이런 것들을 다뤄볼 수 있지 않을까? 하는 아이디어들을 가져와봤어. 무게에 따라 일부만 해봐도 좋고, 형도 오 이거 괜찮다 싶은 것이 있을때 코멘트해주면 더 금방 구체화가 가능할듯. 혹시 잘 상상이 되지 않는 부분이 있다면 내가 빠르게 PoC 해보는것도 가능.
1.
전처리 단계: LLM 기반의 웹 스크레이핑 SaaS 사용하기
전처리 대상
1.
성향을 알고 있는 커뮤니티(긱뉴스, 파이토치)와 IT 유튜브 채널(AI Jason 등 해외 중심으로)
2.
내 메일로 떨어지는 뉴스레터나 SaaS의 New Feature 안내문
e.g. 더밀크에서 가끔씩 던져주는 ‘요즘 대세 SORA’ 안내 메일
e.g. OpenAI에서 보내는 ‘New feature: Structured Output’ 안내 메일
주로 GMail 에서는 ‘프로모션’ 태그로 저장됨.
3.
그냥 웹 서핑을 하다가 발견되는 컨텐츠
어떤 사이트가 될지는 잘 모르겠어.
하지만 주로 AI 관련 기술이나 서비스를 다루는 뉴스 기사나 미디엄 글 정도가 되지 않을까.
목적
1.
최신 트렌드 f/u
2.
유즈케이스 수집
사람이 일상이나 업을 수행하며 겪는 문제 - 이 문제를 해결하는 AI 관련 기술이나 서비스
다른 기술이 가지고 있는 문제 - 이 문제를 해결하는 AI 관련 기술이나 서비스
2.
사실 이해 단계: 관심사 기반의 필터링과 요약
긱뉴스를 떠올려보자. 긱뉴스에는 정말 다양한 성질을 가진 IT/테크 포스팅이 올라온다. link iconGeekNews[GN#268] 그냥 Postgres 쓰세요 | GeekNews 같은 경우, ‘영원한 승자는 없고 기술 그냥 다들 쓰는 것 써도 된다’ 라는 인사이트를 담고 있으면서도, pytorch나 tensorflow 각각의 장단점을 JAX와 비교하는 내용이 포함되어 있다.
이 포스팅에 나온 도구의 수만 해도 수십개가 넘는다. 애초에 별로 궁금했던 것들이 아니기도 하고, 우리에게 필요하지도 않은 정보다. 기술 키워드들을 전부 취합했다가는 엉망이 되고 말 것이다. 단순히 분류나 요약 수준이 아니라, 어떤 멘탈모델로 내용을 정리할 것인지를 고민하는 것이 굉장히 중요하다.
우리가 저장하고 싶은 정보는 기술과 유즈케이스. (더불어 Self-Discover 정도의 심도깊은 질문은 지금 단계에서 할 필요가 없을 것이라고 생각해. 간단한 명령만으로도 추출 가능하지 않을까. 앞서 언급했듯 추출이야 시스템1 사고의 일종이니까…)
3.
병합 단계: 어떤 지식과 어떤 지식을 병합하라고 지정하면, LLM이 둘을 적절히 병합하는 워크플로
문서1
문서2
정보의 소스
추출된 기술 키워드
AI Agent
Agentic Workflow
컨텐츠의 내용
AI Agent 가 해결할 수 있는 과거 기술적 한계
Agentic Workflow 구성 방법과 코드 스니펫과 사용 사례
예를 들어, 위 문서1과 문서2는 아래와 같이 병합될 수 있음.
기술명
AI Agent
기술 설명
문서1로부터 추출
기술-기술 유즈케이스
문서1로부터 추출
현실-기술 유즈케이스
문서2로부터 추출
출처
문서1, 문서2
4.
컨텐츠 제안 단계: 지금까지 쌓여 있는 기술-유즈케이스를 총동원하여 도입-구현-중간설명-구현-마무리 구조에 맞게 컨텐츠 아이디어를 제시
컨텐츠 제안은 경우 가장 중요하고 창의성을 요구하는 시스템2 사고다.
유즈케이스가 하나 들어올때마다 Self-Discover 수준의 워크플로를 돌려 주어야 한다.
창의성을 요구하는 작업이므로 AutoGen의 GroupChat, Nested Chat 가 유용할 수 있다.
물론 비디오에서 보여주는 경우에는 Self-Discover 나 AutoGen 까지는 어려울 것 같다.

더불어 하고싶은 말

형이 언급했듯 link iconYouTubeAI로 YouTube 요약하는게 이렇게 쉽습니다. AI 활용하고 싶은데 코딩때문에 어려우셨다면 클릭! 개발자, 비전공자 모두 유용합니다.같은 컨텐츠가 우리보다 빠른 시간에 비슷한 반응을 이끌어내면서 더 많은 조회수를 만들어내고 있는 것은 사실이야. 그런데 우리가 저 컨텐츠의 성과와 우리의 성과를 비교하며 인사이트를 끌어낼 땐 조심해야 한다고 생각해. ‘너무 어려우면 사람들이 적게 본다’ 라고 해석할수도 있는데, 저 사람의 친절한 설명과 튜토리얼식 컨텐츠가 n8n 이라는 새로운 도구와 합이 잘 맞았을 뿐일지도 몰라. 단일 컨텐츠의 조회수가 노코드캣보다 안 나와서 아쉽긴 하지만 ‘노코드캣’이 앞으로도 계속 튜토리얼식 컨텐츠를 업로드해서 잘 될 것이라는 보장이 있는지 모르겠어. 물론 앞으로 n8n 강의만 업로드한다면 저정도 성과는 계속 나와주겠지 싶네.
지난 비디오의 특징에 더해 이번에 추가하고 싶은 특징은 더 짧은 길이, 더 낮은 난이도인 것 같아. 그럼 길이와 난이도를 낮추더라도 우리 채널에서 살려야 하는 단 하나의 무언가가 무엇이라고 생각하는지 궁금해. 브랜드키트나 우리의 과거 논의들을 돌아보았을 때 우리가 이 채널을 시작한 이유의 코어는 ‘와 이 채널에는 인사이트가 있네요.’ ‘와 이분들은 (겉핥기를 넘어) 진짜 철학을 가진 메이커네요 (본인의 머리를 깎을 줄 아는 미용사네요)’ 라는 반응으로 오디언스를 구축하고, 나아가 우리의 브랜드를 만드는 것이 우리의 지향점이었어.
우리가 어려운 것을 쉽게 전달하는 능력이 부족했던 것은 아닐까? 물론 우리는 항상 비디오 전체에 명확한 구조를 만드는 일에 많은 신경을 썼어. 하지만 link iconYouTube"그래서 하고싶은 말이 뭐예요?" 이런 말 안 듣고 싶다면 (Feat.이지영)이나 link iconYouTube"그렇게 설명하면 사람들이 안 듣습니다", 어려운 내용도 한 번에 이해시키는 기술 (김상욱)을 보면 어떻게 더 매력적인 방식으로 이야기를 전달할 수 있는지를 다루는데(물론 비디오에서는 너무 기본적인 내용들이 언급되지만), 우리가 고민해 왔던 것들과는 조금 다르고 여기에 개선점이 있을 수 있겠다는 생각도 들었어. 이지영이나 김상욱을 어려운 내용을 대중적이고 매력적이게 설명하는 데 능통한 사람이라고 하고, 우리가 이들의 장점을 배운다면 난이도와 깊이는 포기하지 않으면서 더 많은 오디언스를 모으는 방법을 모을 수 있을 것이라고 생각해. ‘어려운 내용이더라도 더 매력적으로 스토리텔링하는 방법을 고민하자’ 라는 방향이 가진 것을 잃지 않으면서 훨씬 큰 임팩트를 만들 수 있겠다는 생각을 했어.
사람들이 유튜브 요약같은 것과 비교도 안 될 수준으로 익히 알고 있는 무언가와 관련된 주제(제너럴한 Curiosity)를 선택해서 지금 정도의 깊이로 풀어내는 것이 훨씬 큰 임팩트를 만들 수 있겠다는 생각을 했어. 그런 관점에서 뷰트랩의 인사이트(그들의 T&T나 스토리 전체를 베끼자는 것이 아니라, 이미 ‘사람들이 익히 알고 있는 무언가의 주제’를 빨리 찾자는 관점에서)가 유용할 수 있겠다고 언급했던 것 같아. 물론 이야기 구조가 지난번에 형이 보여주었던 optimal SOLVIT 비디오의 방향으로 조금 움직일수도 있을 것 같고, 우리가 예전에 칠판에 적었듯 사회이슈나 신기술처럼 Curiosity 피크를 모니터링하는 것도 방법일 것 같네.
나는 ‘오후다섯씨’, ‘노코드캣’, ‘기묘한 자동화’류 채널의 컨텐츠처럼 얕아지는 것은 우리다움도 잃고 대중성도 어정쩡하게만 얻을 가능성이 높다고 생각하기 때문에 - 다시 생각의 균형을 맞추고 커다란 도약을 하고싶은 마음에 덧붙여봤어.
컨센, 기획의도: Key message 를 명확히 하겠다는 점은 여전히 동일하다. Key message 를 중심으로 생각해보았다. 사람이 잘하는 부분과 AI가 잘하는 부분을 쪼개서 적용하면 AI를 더 잘 활용할 수 있다, 리서치는 사람의 고유한 영역으로 여겨져 왔는데 AI는 어떻게 도와줄 수 있을까. 리서치의 목적에 따라 관점과 접근 방식이 달라지는 것도 맞고, 우리가 사용하기도 쉽지만은 않을 것이라고 생각한다. 그럼에도 시도의 차원에서 최대한 좁혀서 해 보고자 했다.
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.
1.
수민형이 공유준 글
2.
처음에는 수집된 기술을 이렇게 분류하면 어떨까 했었다. 하지만 결국 이걸 분류해서 뭐할건데가 명확하지 않으므로 결국 분류할 필요가 없는 것을 분류하는 것 같다는 생각이 들었다.
처음에 내가 만들어본 분류
GPT가 나누어본 추상화 수준별 기술 분류
from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.
1.
앞의 글은 어떤 분류체계를 만드는 것에 대한 회의감이 씨게 왔을 때 적었던 글.
2.
앞의 글은 인간에게 학습이 일어나려면 눈높이에 맞는 추상화 수준의 설명이 필요하다고 이야기한다.
하지만 나의 눈높이는 끊임없이 변화한다. LLM에게 나의 지식 추상화 수준을 계속 동기화시키는 것은 매우 어렵다. 내가 읽은 글과 내 생각이 담긴 모든 글들을 넣는다고 해결될까? 아닐 가능성이 높다. LLM은 45분 길이 유튜브 대본만 넣어도 제대로 이해하지 못하고 헤멘다.
게다가 사람의 지식은 글만으로부터 수집하는 것이 아니고, 모든 지식을 글로 표현하는 것도 불가능하다. 영감은 문자와 문자의 연결이라기보다는 시냅스의 연결이다. 문자는 그것을 표현하기만 하는 경우도 많다. LLM을 만능으로 여기면 안된다.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.
1.
None
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.
1.
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.
1.
None
ref : 생각에 참고한 자료입니다.