✏️

SearchGPT와 Perplexity의 등장으로 구글과 컨텐츠 비즈니스가 진짜 위기에 처했을까?

created

2024/09/11 04:38

last edited

2025/01/26 09:08

difficulty

문과: 보통

이과: 보통

1 more property

지금까지의 컨텐츠 비즈니스

•

도서관 하나만에도 평생 읽어도 다 못 읽을 자료들이 있듯, 인터넷에도 많은 자료가 있다. 도서관에 사서라는 자료탐색 시스템이 있듯, 인터넷이라는 도서관에서 훌륭한 자료 탐색 시스템은 Google이다. 인터넷 사서 Google은 거대한 도서관에서 어떤 책의 몇 페이지에 우리가 찾고자 하는 내용이 있는지를 딱 찾아내서 보여 준다.

•

우리는 Google이 보여준 그 페이지를 포함하고 있는 책이나, 그 책을 쓰는 작가가 마음에 드는 경우들이 자연스레 생겨난다. 이는 특정 블로그, 유튜브 채널, 뉴스레터를 자주 방문하거나 구독하는 현상으로 드러난다. 컨텐츠 비즈니스는 이렇게 모인 나의 팬, 구독자들과 상호작용하며 가치를 만들어내는 비즈니스다.

•

Google이라는 자료 탐색 시스템이 원하는 자료를 페이지까지 딱 찾아줌에도 불구하고, 이 책들과 작가들은 나름대로 여전히 검색엔진이라는 것이 존재하지 않던 과거부터 사용해 왔던 태그나 카테고리라는 체계를 이용하여 책의 내용에 편하게 접근할 수 있는 방법을 제공했다. 내가 관심있는 책을 읽어볼 수 있다는 점에서 컨텐츠 구독은 Google 검색보다 개인의 관심과 취향에 집중한다.

•

한편 디스커버리형 플랫폼, 머신러닝 기반 큐레이팅 플랫폼은 나의 흥미와 본능을 자극하는 책을 알아서 골라 준다. 어차피 막연히 책을 읽고 싶었을 뿐, ‘딱 원하는 정보’라는 것이 없다보니, 적당히 내가 좋아하고 관심가질 것 같은 책을 뽑아서 집으로 보내 준다. 마찬가지로 책을 통해 정보를 제공하지만, 시작점이 ‘정보 공급’에 있는 것이 아니라 ‘개인의 흥미와 본능’에 있다는 점에서 다르다. 디스커버리 및 큐레이팅 플랫폼은 내가 좋아할 만한 작가의 글을 주기 때문에 컨텐츠 비즈니스와 시너지가 좋다.

검색 엔진의 프론트-백 분화 현상 그리고 미래의 수익형 컨텐츠

•

문제는 최근 인터넷이라는 도서관 입구에 자료 검색 시스템을 이용해서 뭐든지 다 대답해주는 아주 똑똑한 기계가 하나 더 생기게 되었다는 것이다. 도서관에 방문한 사람들은 이제 책을 직접 만지지도, 저자를 궁금해하지도 않는다. 대신 그냥 이 기계에 자신이 궁금한 것을 물어본다. 그럼 이 기계는 도서관 자료 검색 시스템을 이용해서 순식간에 수많은 책을 읽고 소화해 온다. 그리고 도서관 방문자의 궁금증을 시원하게 해소해 준다.

•

이상한 상황이 되어 버린 것이다. 나를 좋아하는 사람들을 만들기 위해 열심히 책을 썼는데, 무슨 기계만 공부시키는 꼴이 됐다. 도서관에는 행적이 뚝 끊겼다. 과거에는 작가가 자신의 책을 좋아하는 사람을 모으기 위해 Google과 같은 색인 시스템에 자신의 자료를 노출시켰다. 하지만 이제 이 기계에 의해 모든 것들이 다 가려져 버린 것이다.

•

Search GPT/Perplexity같은 서비스가 널리 사용될수록, 과거와 달리 인터넷이라는 도서관에서 작가의 책을 직접 펼쳐 보는 사람이 줄어든다. 그러다보면 대중들이 일반적인 정보를 얻기 위해 각 사이트를 방문할 일이 줄어들면서, 컨텐츠 공급자의 플랫폼에 자료를 검색하는 사람이 도달 자체가 줄어들게 되고, 일반적인 정보를 제공해서는 대중을 모으기가 어려워진다. 많은 사람들이 찾는 일반적인 정보를 제공하는 박리다매형 컨텐츠 공급의 가치가 크게 떨어진다.

•

작가들은 자신의 이익을 지키기 위해 도서관에 자신의 책을 넣을 때 기계가 책을 읽을 수 없도록 이상한 패키징을 하기 시작한다. 책에 자물쇠를 걸기도 하고, 지문을 인식 모듈을 붙이기도 한다. 너무 빨리 책을 읽으면 책장이 안 넘어가지도록 만들기까지 하고 있다. 작가들은 자신의 책을 읽는 사람들이 사람이기를 바라는 것이다. 실제로 요즘 인터넷 도서관의 작가, 즉, 컨텐츠 공급자가 사용하고 있는 미봉책은 자신의 컨텐츠를 LLM이 크롤링해갈 수 없도록 걸어잠가 버리는 것이다. Robot.txt, IP를 검사하고, 캡챠를 넣고, 트랩을 설치하고, 동적으로 페이지를 생성해서 봇을 차단하는 것이다.

•

하지만 이는 장기적으로 볼 때 AI라는 거대한 흐름을 거스르는 셈이다. 정보를 찾는 사람들은 양질의 정보를 쉽게 얻기 어렵고, LLM을 추가로 학습시켜야 하는 회사 입장에서도 양질의 데이터를 구하기 어려워진다. 중요하고 값비싼 자료는 모조리 유료로 제공되고, 무료를 표방한 공개 컨텐츠들은 AI 기반 정크 컨텐츠로 도배되며, LLM의 지식은 갱신되지 않아 정보의 역민주화를 부추길 수 있다. 그렇다고 반대로 지금처럼 Google 색인 결과를 마구잡이로 스크레이핑해서 LLM에 주입하고 컨텐츠 공급자의 이익에 대해 신경쓰지 않는 현상 또한 거시적으로 보았을 때 지속가능하지 않다.

•

다시 돌아가, 이러한 종합적인 상황들로 Google이 위기라고 이야기하는 사람들이 많다. 하지만 앞서 언급했듯 Search GPT/Perplexity의 역할과 Google의 역할은 본질적으로 다르다. Search GPT/Perplexity는 검색엔진 프론트엔드고, Google은 검색엔진 백엔드에 집중해 온 회사이기 때문이다. Google만큼 색인을 잘 하는 검색엔진은 없으므로, Google을 이기겠다는 Search GPT나 Perplexity도 결국 Google과 같은 거대한 색인 시스템을 사용하지 않으면 좋은 결과물을 생성하기 어렵다. Search GPT나 Perplexity는 검색엔진 프론트엔드의 기회를 포착한 것이라고 해석하는 것이 더 자연스럽다.

물론 Perplexity는 MS Bing을 백엔드로 사용한다고 한다(ref1).

•

앞으로 Google이 광고가 아니라 기업용 검색 API 사용 가격을 인상하는 방향으로 BM을 재구성할 가능성이 있다고 본다. 그리고 지금처럼 광고주에게 광고를 받고 컨텐츠 공급자에게 공유하는 모델 대신, LLM이 일정한 프로토콜로 컨텐츠 공급자가 제작한 컨텐츠를 스크레이핑하고 컨텐츠 제작자가 스크레이핑에 대한 일정 수익을 공유받는 모델을 개발해야 한다고 생각한다. 나는 이때 Google이 핵심적인 역할을 할 수 있다고 생각한다. Google은 누구보다 누구나 제공하는 정보를 제공하는 블로그에 낮은 가치를 책정하고, 희귀한 정보가 담긴 컨텐츠에는 높은 가치를 책정하는 알고리즘을 개발하고, 이 수익을 쉐어하는 프로토콜과 플랫폼을 만들 여력이 된다. Google은 키워드 경쟁 기반의 광고단가 책정에 익숙한 기업이 아니었는가.

•

앞으로는 워드프레스처럼 사람을 위한 CMS - 쉽게 광고를 붙이고 SEO에 집착하는 것을 넘어, 사람과 LLM 모두를 위한 CMS가 필요하지 않을까 하는 생각이 든다. 또한 미래에 컨텐츠 비즈니스를 지속하기 위해서는 작고 뾰족한 타깃 고객을 소구시키는 컨텐츠를 제작하는 것이 박리다매성 컨텐츠 비즈니스보다 더 높은 가치를 가지지 않을까 하는 생각이 든다. 특히 LLM은 아직 ‘재미’와 ‘센스’처럼 언어적으로 정의하기 어렵지만 현실에서 나타나는 것에 약하다는 것도 주목해볼만하다고 생각한다.

글 작성 이후 추가된 내용

•

최근에는 퍼플렉시티 CEO가 크롤링, 인덱싱, 랭킹을 내부적으로 처리하고 있다는 이야기를 했다. 하지만 이것을 잘 해내는 일에는 수십 년이 걸릴 것이라는 점 또한 언급했으므로, 아직 전통 검색엔진에 상당부 의존하고 있을 수 있을 가능성이 있다고 본다.

•

GeekNewsCloudflare의 새로운 마켓플레이스, 웹사이트가 AI 스크래핑 봇 에 요금 부과 가능 | GeekNews 클라우드플레어는 매우 비슷한 문제의식에 기반하여 새로운 과금 방식을 제공한다.

글을 쓰는 데 참고한 자료입니다.

Perplexity AI gathers information from various search engines and databases, with Microsoft Bing being a primary source. The tool’s AI then analyzes these sources to provide answers supported by citations.

12:45, (잘 알려지지 않은 사실이지만) 저희는 처음부터 웹 크롤링을 해왔습니다. … (하지만) 저희는 갓 시작한 회사고, 자체적인 크롤링 인프라와 시스템을 구축하는 데에는 수십 년이 걸립니다. 크롤링뿐 아니라 인덱싱과 랭킹도 해야 합니다.  … 저희는 확실히 이 세 가지를 내부에서 처리하고 있습니다. 그렇다고 저희가 구축한 시스템에만 의존하는 것은 아닙니다.

18:27, 초기 판단은 전통적인 검색 방식의 과정으로 이루어지죠. 쿼리와 관련된 상위 20~30개의 문서를 제공합니다.

18:05, AI가 스스로 어떤 출처가 좋은지, 나쁜지를 판단하는 문제는 매우 어렵습니다. 그래서 우리는 다양한 웹 신호에 의존해 노력하고 있죠.

18:40, … LLM은 이 모든 문서들을(리트리버가 찾은 모든 문서들) 모델의 프롬프트에 입력합니다. 모델은 이 프롬프트에 대해 다음과 같이 지시합니다. ‘매우 저널리즘적인 톤으로 편견 없는 답변을 작성하라’, ‘반드시 사용자가 묻는 것과 관련된 부분만을 선택하라’, ‘두 개의 출처가 다른 주장을 하고 있다면 답변을 주기 전에 잠시 생각하고 신중하게 추론하라.’, ‘또는 정보를 섞지 말고 두 출처가 상충된다는 관점을 제시하라’. … 물론 이렇게 지시를 내리지만, 한번에 다 내리면 환각 현상이 발생합니다. … 앞으로 이런 문제는 (모델의 발전과 함께) 줄어들게 될 것입니다. 

20:00, 답변 엔진 최적화(AEO)라는 개념이 있습니다. … SEO와 비슷한 접근입니다. … 단기적으로는 쉬운 접근일 수 있지만 장기적으로는 효과가 없을 것입니다. 장기적으로 가장 좋은 방법은 정말로 훌륭한 원본 컨텐츠를 만드는 것입니다.

글을 쓰는 데 반영된 생각들입니다.

2_1_2_7.1. title: 고전적으로 인류가 정보를 저장하는 방식은 분류였다. 모든 정보를 분류하여 각 분류에 맞게 백과사전에 집어넣었다. 도서관의 모든 책들은 일정한 방식으로 분류된다. 특정 지식에 도달하는 방법은 거의 유일했다. 검색엔진이 발전하면서 정보 검색은 비선형적이게 되었다. 일대다 연결이 가능해졌다. 하지만 여전히 일정한 규칙에 의해 동작한다.

이 글은 다음 글로 이어집니다.

작성 중입니다.

바로가기

다빈치 작업실 : 블로그 홈

생각 덩어리 : 거의 완성된 글들 모음

생각 완전체 : 글 그 자체. 블로그 포스팅

블로그의 원칙 나의 원칙 연락해요

피드백