본문 바로가기
Living with AI

[AI는 붕괴한다] 3. 먼저 잊히는 것들: 데이터 분포의 '꼬리'

by 그리-드 2025. 10. 30.

 

앞선 글에서 우리는 AI를 망가뜨리는 '모델 붕괴' 현상과 그 원인이 되는 세 가지 근본적인 오류에 대해 살펴봤다. 데이터 샘플링의 한계부터 모델의 표현력, 학습 방식의 불완전함까지, 이 오류들이 합쳐져 AI가 현실을 왜곡하게 만든다는 이야기였다.

 

https://gri-d.tistory.com/63

 

하지만 붕괴는 한순간에 일어나지 않는다. 그것은 서서히, 그리고 가장 약한 부분부터 시작된다. 모델 붕괴의 가장 초기 단계에서 나타나는, 그래서 더 위험한 증상은 바로 AI가 세상의 '소수자'에 대한 기억을 지워버린다는 점이다.

 

 

 

 


먼저 잊히는 것들: 데이터 분포의 '꼬리'

데이터의 세상을 보면, 언제나 소수의 '특별한' 사례와 다수의 '평범한' 사례가 공존한다. 이를 통계 그래프로 그리면 대부분의 데이터가 몰려있는 봉우리 부분과, 양쪽으로 길게 늘어지는 '꼬리(tails)' 부분으로 나뉜다. 이 꼬리 부분이 바로 발생 빈도는 낮지만, 세상의 다양성을 보여주는 중요한 데이터들이다.

예를 들어, '강아지' 이미지 데이터가 있다면, '리트리버'나 '푸들'처럼 흔한 품종은 봉우리에 해당할 것이다. 반면, 아주 희귀한 품종이나 독특한 털 색을 가진 강아지는 꼬리 부분에 위치하게 된다.

모델 붕괴가 시작될 때, AI가 가장 먼저 잊어버리는 것이 바로 이 꼬리다. 논문은 이 첫 단계를 '초기 모델 붕괴 (early model collapse)' 라고 부른다. AI가 생성한 데이터로 다음 세대 모델을 학습시킬 때, 자주 등장하는 평범한 데이터는 쉽게 다시 샘플링되지만, 어쩌다 한번 나타나는 희귀한 데이터는 누락될 확률이 매우 높기 때문이다.

 

논문은 이 과정을 다음과 같이 직접적으로 설명한다.

At first, the tails (low-probability events) begin to disappear as a result of the low probability of sampling them...
(처음에는, 낮은 확률의 사건들(꼬리)이 낮은 샘플링 확률의 결과로 사라지기 시작한다...)

 

 

한번 학습 데이터에서 사라진 '희귀한 강아지'는 다음 세대 AI에게는 처음부터 존재하지 않았던 것이 된다. 이런 과정이 반복되면 AI의 세상에서는 결국 평범한 강아지들만 남게 되는 것이다.

 

 


 

 

데이터의 소멸이 현실에 미치는 영향

 

이것이 단순히 AI가 몇 가지 희귀한 사례를 잊어버리는 기술적 문제에 그칠까? 절대 그렇지 않다. 데이터 분포의 꼬리는 통계적으로는 작은 부분일지 몰라도, 현실 세계에서는 매우 중요한 의미를 갖는다.

  • 사회적 소수자: 인종, 성별, 문화 등 사회의 소수 집단에 대한 데이터
  • 의학적 희귀 사례: 드물게 발생하는 질병이나 비전형적인 증상 데이터
  • 창의적 아이디어: 대중적이지는 않지만 혁신적인 소수의 의견이나 예술 작품
  • 금융 이상 거래: 일반적이지 않은 패턴을 보이는 금융 사기나 시장 위기 신호

AI가 이 꼬리 부분을 잊어버린다는 것은, 결국 이들의 목소리를 지우고 존재를 부정하는 결과로 이어질 수 있다. AI 의사가 희귀병을 진단하지 못하고, 채용 AI가 특정 집단에 대한 편견을 강화하며, 금융 AI가 새로운 유형의 위기를 감지하지 못하게 되는 것이다.

논문은 이 문제의 심각성을 다음과 같이 강조한다.

 

Preserving the ability of LLMs to model low-probability events is essential to the fairness of their predictions: such events are often relevant to marginalized groups.
거대 언어 모델이 낮은 확률의 사건을 모델링하는 능력을 보존하는 것은 예측의 공정성에 필수적이다. 이러한 사건들은 종종 소외된 집단과 관련이 있기 때문이다.)

 

 

다시 말하자면,

결국 초기 모델 붕괴는 단순한 성능 저하가 아니라, AI의 공정성과 직결되는 윤리적인 문제다.

AI가 만들어갈 미래가 다수가 소수를 억압하는 세상이 되지 않으려면, 우리는 이 '꼬리'의 가치를 반드시 지켜내야 한다.

어떤 정보가 더 중요하고, 잊으면 안되는 것인지에 대해서는 인간의 주체적인 판단이 필요한 셈이다.

AI가 만든 데이터가 인간의 말보다 더 쉽게 신뢰받는 세태애 대해서 언제나 경계할 필요가 있다.

 

 

 

 

그렇다면 이 무서운 붕괴 현상이 실제 언어 모델에서는 어떻게 나타날까? 다음 편에서는 연구팀이 직접 진행한 실험을 통해, 멀쩡하던 AI가 어떻게 망가져 가는지 그 구체적인 모습을 들여다보겠다.