
데이터의 원죄, 모델 붕괴를 일으키는 3가지 오류
지난 글에서는 AI가 자신이 만든 데이터를 반복해서 학습할 때, 점차 현실 감각을 잃어버리는 '모델 붕괴 (Model Collapse)' 현상에 대해 알아봤다. 복사본의 복사본이 원본을 잃어버리듯, AI도 점차 원본 데이터의 다양성을 잃고 왜곡된 결과물을 내놓게 된다는 이야기였다.
그렇다면 이 무서운 붕괴는 도대체 왜 일어나는 걸까? 그냥 AI가 똑똑하게 알아서 잘 배우면 되는 것 아닌가?
네이처(Nature) 논문은 모델 붕괴가 피하기 어려운 필연적인 과정이라고 말한다. 그리고 그 원인을 크게 세 가지의 근본적인 '오류'에서 찾는다. 이 오류들이 세대를 거듭하며 합쳐지고 증폭되면서, 결국 모델을 붕괴로 이끄는 것이다.
첫째, 샘플링의 한계: 통계적 근사 오류 (Statistical approximation error)
이것이 붕괴를 일으키는 가장 핵심적인 오류다. AI는 현실 세계의 모든 데이터를 학습할 수 없다. 언제나 한정된 양의 데이터, 즉 '샘플'을 가지고 전체를 추측할 뿐이다. 이는 마치 대한민국 전체 지도를 그려야 하는데, 서울, 부산, 광주 딱 세 도시의 모습만 보고 그리는 것과 같다. 당연히 실제 모습과는 차이가 생길 수밖에 없다.
AI가 다음 세대를 위한 데이터를 생성할 때도 마찬가지다. 원본 데이터의 모든 특성을 완벽하게 담아내지 못한다. 특히, 발생 확률이 낮은 드문 데이터, 즉 분포의 꼬리(tails)에 해당하는 정보는 샘플링 과정에서 누락되기 쉽다. 이렇게 한번 정보가 손실되면, 다음 세대 모델은 그 정보가 처음부터 없었던 것처럼 학습하게 되고, 오류는 점점 더 커진다.
둘째, 모델 능력의 한계: 함수적 표현성 오류 (Functional expressivity error)
두 번째 오류는 AI 모델 자체가 가진 표현력의 한계에서 비롯된다. 아무리 뛰어난 AI 모델이라도 현실 세계의 복잡하고 미묘한 분포를 100% 똑같이 표현해 내는 것은 불가능하다.
A simple example of the expressivity error is if we tried fitting a mixture of two Gaussians with a single Gaussian. Even if we have perfect information about the data distribution (that is, infinite number of samples),
논문에서는 이를 "두 개의 가우시안 분포를 하나의 가우시안으로 근사하려는 시도"에 비유한다. 봉우리가 두 개인 데이터 분포를 봉우리가 하나뿐인 모델로 억지로 설명하려고 하면, 당연히 정보의 왜곡이 발생한다. 신경망 모델이 아무리 크고 복잡해져도, 그 크기가 무한대가 아닌 이상 이런 표현력의 한계는 늘 존재할 수밖에 없다. 이 과정에서 모델은 실제 데이터에는 없는 부분을 만들어내거나, 있는 부분을 무시해버리는 오류를 저지르게 된다.

셋째, 학습 방식의 한계: 함수적 근사 오류 (Functional approximation error)
마지막 오류는 AI의 '학습 방식' 자체에서 온다. AI는 보통 경사 하강법(gradient descent)과 같은 최적화 알고리즘을 사용해 정답에 가까워지려 노력한다. 하지만 이 학습 과정 자체가 완벽하지 않다. 때로는 가장 좋은 정답이 아닌, 그럴싸한 지점에서 학습을 멈추기도 한다.
논문에서는 이를 "무한한 데이터와 완벽한 표현력을 가정하더라도, 학습 절차의 한계 때문에 발생하는 오류"라고 설명한다. 즉, 재료(데이터)와 도구(모델)가 아무리 완벽해도, 요리사(학습 알고리즘)의 기술 부족으로 완벽한 요리가 나오지 못하는 것과 같다.
이 세 가지 오류는 각각 독립적으로 작용하는 것이 아니다. 논문은 이 오류들이 "개별적인 부정확성이 결합하여 전체 오류를 키우는 연쇄 효과(cascading effect)를 일으킨다"고 지적한다. 통계적 오류로 데이터 일부가 사라지고, 표현력의 한계로 그 데이터가 왜곡되며, 근사 오류로 인해 그 왜곡이 더 심해지는 악순환이 반복되는 것이다.
한마디로 말하자면,
결국 모델 붕괴는 어느 한 부분의 실수가 아니라, 데이터 샘플링부터 모델링, 학습에 이르는 전 과정에 내재된 근본적인 한계 때문에 발생하는 현상이라 할 수 있다.
다음 글에서는 이 오류들이 구체적으로 어떤 비극을 만들어내는지, AI가 소수의 목소리를 어떻게 지워버리는지에 대해 더 자세히 알아보겠다.
'Living with AI' 카테고리의 다른 글
| [AI는 붕괴한다] 4. 언어 모델은 어떻게 망가지는가? 실제 실험으로 본 붕괴 과정 (0) | 2025.11.03 |
|---|---|
| [AI는 붕괴한다] 3. 먼저 잊히는 것들: 데이터 분포의 '꼬리' (0) | 2025.10.30 |
| [AI는 붕괴한다] 1. '모델 붕괴' 현상이란 무엇인가? (0) | 2025.10.23 |
| [AI는 붕괴한다] 연재 소개 (0) | 2025.10.17 |
| Make.com과 Gemini 사용해서 매일 사주 운세 받아보기 (0) | 2025.10.15 |