
앞선 4부에서는 충격적인 실험 결과를 마주했습니다. 똑똑하던 AI가 스스로 만든 데이터를 먹고 배우면서 불과 몇 세대 만에 의미 없는 단어를 반복하는 수준으로 퇴화하는 '모델 붕괴'의 현실을 똑똑히 확인했죠. 이는 단순히 AI의 성능이 나빠지는 문제가 아닙니다. AI가 생성한 콘텐츠가 인터넷을 뒤덮을 미래에, 우리는 어떻게 AI의 지능을 유지하고 발전시킬 수 있을지에 대한 근본적인 질문을 던집니다.
4부 다시 보기
그리고 그 질문에 대한 답을, 논문은 아주 명확하고도 강력하게 제시합니다. AI를 붕괴의 나락에서 구해낼 유일한 희망은 바로 '진짜 인간이 만든 데이터(genuine human-produced data)'에 있다는 것입니다.
'깨끗한 데이터'를 선점한 자들의 행운
우리가 지금 당연하게 사용하는 GPT-4나 다른 거대 언어 모델(LLM)들은 사실 엄청난 행운을 누린 셈입니다. 이 모델들은 AI 생성 콘텐츠가 인터넷을 오염시키기 전, 비교적 순수했던 시절의 방대한 웹 데이터를 학습할 수 있었습니다. 논문은 이를 일종의 '선점자 우위(first mover advantage)'라고 표현합니다. AI라는 새로운 대륙이 발견되었을 때, 가장 먼저 도착해 오염되지 않은 가장 비옥한 땅(데이터)을 차지했다는 뜻입니다.
하지만 이제 상황은 180도 달라졌습니다. ChatGPT와 같은 생성 AI가 대중화되면서, AI가 만들어낸 수많은 텍스트와 이미지가 웹에 쏟아지고 있습니다. 앞으로 나올 다음 세대 AI들은 좋든 싫든, 이전 세대 AI가 만들어낸 콘텐츠를 학습 데이터로 삼을 수밖에 없습니다. 그리고 우리는 4부의 실험을 통해 그 결과가 얼마나 치명적인지 이미 알고 있습니다. AI가 만든 데이터를 먹은 AI는 결국 원본의 미세한 부분을 잃어버리고, 결국에는 현실을 완전히 왜곡하게 됩니다.

역사는 반복된다: 트롤 팜에서 AI 팜으로
AI 데이터 오염 문제는 사실 완전히 새로운 현상은 아닙니다. 논문은 이를 검색 엔진이 겪었던 '장기적인 독성 공격(Long-term poisoning attacks)'의 역사와 비교합니다.
과거 '클릭 팜'이나 '트롤 팜'이라 불리는 조직들이 있었습니다. 이들은 돈을 받고 특정 콘텐츠의 조회수를 조작하거나, 정치적 목적으로 여론을 왜곡하는 댓글을 쏟아냈습니다. 논문은 이들을 일종의 '인간 언어 모델'이라고 부르며, 이들의 목표는 검색 알고리즘을 속여 저품질의 콘텐츠를 상위에 노출시키는 것이었습니다.
결국 구글과 같은 검색 엔진들은 이 공격에 대응하기 위해 알고리즘을 수정해야만 했습니다. 단순히 키워드가 많거나 링크가 많은 페이지가 아니라, .edu로 끝나는 교육 기관 사이트나 공신력 있는 언론사처럼 신뢰할 수 있는 출처의 콘텐츠에 더 높은 가중치를 부여하는 방식으로 진화한 것입니다.
지금 우리가 마주한 문제는 바로 이 과거의 싸움이 자동화되고 거대한 규모(at scale)로 벌어지는 것입니다. 인간이 손으로 하던 일을 이제 AI가 24시간 내내, 전 세계적인 규모로 해낼 수 있게 된 것입니다. AI가 만들어내는 그럴싸한 가짜 정보의 홍수 속에서, 진짜와 가짜를 구별하는 것은 더욱 어려워졌습니다.
출처를 알 수 없는 데이터의 저주, 프로버넌스
이 문제의 핵심은 이제 인터넷에서 긁어온 데이터의 출처(provenance)를 알기 매우 어려워졌다는 점입니다. 어떤 글이 한 인간의 깊은 고뇌와 경험을 바탕으로 쓴 글인지, 아니면 그저 수많은 데이터를 조합해 그럴싸하게 흉내 낸 AI의 글인지 명확히 구분할 방법이 없습니다.
따라서 앞으로 AI를 제대로, 그리고 지속적으로 훈련시키기 위해서는, 데이터의 출처를 명확히 추적하고 관리하는 기술이 무엇보다 중요해집니다. 논문은 이를 위해 AI 모델을 만들고 배포하는 모든 기업과 연구기관, 커뮤니티가 정보를 공유하고 협력하는 '범사회적인 협력 체계(community-wide coordination)'가 필요할 수 있다고 제안합니다. 예를 들어 AI가 생성한 모든 콘텐츠에 보이지 않는 워터마크를 삽입하거나, 콘텐츠의 생성 이력을 블록체인처럼 투명하게 기록하는 기술이 필요할지 모릅니다.
만약 이러한 해결책을 찾지 못한다면, 우리는 결국 AI 시대 이전에 수집된 '구시대의 유물' 같은 데이터에만 의존하거나, 엄청난 비용을 들여 인간이 직접 생성했음이 '보증'된 데이터를 수집해야만 할 것입니다. 4부 실험에서 본 것처럼, 단 10%의 순수한 원본 데이터만 섞어줘도 모델 붕괴를 크게 막을 수 있었습니다. 이 사실은 역설적으로, 오염되지 않은 인간 데이터가 앞으로 얼마나 귀하고 값비싼 자원이 될지를 명백히 보여줍니다.
미래의 석유: '인간-AI 상호작용' 데이터
논문은 여기서 한 걸음 더 나아가, 미래에 가장 가치 있는 데이터는 단순히 인간이 과거에 써놓은 정적인 텍스트가 아닐 것이라고 말합니다. 바로 '시스템과 인간 사이의 진정한 상호작용에 대한 데이터(data collected about genuine human interactions with systems)'입니다.
이는 AI 챗봇에게 질문하고 그 답변을 평가하는 과정, AI 이미지 생성 도구로 작품을 만들고 "조금 더 어둡게", "더 웃는 표정으로"처럼 프롬프트를 수정해 나가는 모든 과정, AI 추천 시스템이 보여준 영화에 대해 사용자가 '좋아요'나 '싫어요'를 누르는 반응 등, AI와 인간이 실시간으로 소통하며 만들어내는 모든 동적인 데이터를 의미합니다.
이 '상호작용 데이터'는 다음과 같은 이유로 엄청난 가치를 지닙니다.
- 최고의 품질: AI가 흉내 낼 수 없는, 살아있는 피드백이자 가장 신선하고 깨끗한 학습 자료입니다.
- 지속적인 교정: AI가 잘못된 방향으로 가려고 할 때마다 인간의 피드백이 즉시 경로를 수정해주는 '조향장치' 역할을 합니다.
- 다양성 확보: 이 상호작용을 통해 우리는 3부에서 사라졌던 '데이터의 꼬리', 즉 소외된 집단의 관점이나 창의적인 소수의 의견을 다시 데이터로 확보할 수 있습니다.
그래! 결국 인간이야!!
결국 모델 붕괴의 위기는 우리에게 데이터의 가치를 다시 생각하게 합니다.
지금까지는 데이터의 '양'이 중요했다면, 이제는 데이터의 '질'과 '신뢰성', 그리고 '출처'가 AI의 성패를 가르는 핵심 요소가 되었습니다. 진짜 인간의 경험과 상호작용이 담긴 데이터는 AI 시대를 이끌어갈 새로운 자원으로 보아야 합니다.
AI 에이전트 간 교환이 계속되어 학습한다고 하더라도, 실제로 그들이 자양분으로 삼을 데이터의 출처는 인간이니까요.
(아 물론, 인간이 데이터 주권을 가진다기 보다는, 데이터 생산공장? 노예?가 될 수도 있긴 합니다)
마지막 6부에서는 모델 붕괴를 막기 위한 노력과 AI의 지속가능한 미래에 대해 이야기하며 이 시리즈를 마무리하겠습니다.
'Living with AI' 카테고리의 다른 글
| [AI는 붕괴한다] 6. 모델 붕괴를 막기 위한 노력 (1) | 2025.11.11 |
|---|---|
| [AI는 붕괴한다] 4. 언어 모델은 어떻게 망가지는가? 실제 실험으로 본 붕괴 과정 (0) | 2025.11.03 |
| [AI는 붕괴한다] 3. 먼저 잊히는 것들: 데이터 분포의 '꼬리' (0) | 2025.10.30 |
| [AI는 붕괴한다] 2. 모델 붕괴를 일으키는 3가지 오류 (1) | 2025.10.28 |
| [AI는 붕괴한다] 1. '모델 붕괴' 현상이란 무엇인가? (0) | 2025.10.23 |