[AI는 붕괴한다] 4. 언어 모델은 어떻게 망가지는가? 실제 실험으로 본 붕괴 과정

지난 세 편의 글을 통해 우리는 '모델 붕괴'라는 현상의 개념과 원인, 그리고 그것이 AI의 공정성에 미치는 영향까지 이론적으로 살펴보았다. 어쩌면 이렇게 생각할 수도 있다.

"그럴듯한 이야기지만, 정말 현실에서도 그런 일이 일어날까? 그저 이론에 불과한 것 아닐까?"

연구팀은 바로 이 질문에 답하기 위해, 직접 언어 모델을 대상으로 붕괴 과정을 실험했다. 이번 글에서는 그 흥미진진한 실험의 과정과 충격적인 결과를 통해, 멀쩡하던 AI가 어떻게 서서히, 그리고 확실하게 망가져 가는지 구체적으로 들여다보겠다. 이론이 현실이 되는 순간이다.

지난 세편의 글 다시보기.

https://gri-d.tistory.com/62

https://gri-d.tistory.com/63

https://gri-d.tistory.com/64

거대 언어 모델(LLM)이 특별한 이유

실험 이야기를 하기에 앞서, 왜 하필 '거대 언어 모델(LLM)'이 이 문제에서 특별한지를 짚고 넘어가야 합니다. 논문에 따르면, 모든 머신러닝 모델이 모델 붕괴에 취약하지만, LLM은 그 구조 때문에 더 현실적인 위협에 직면합니다.

Model collapse is universal across various families of machine learning models. Yet, if small models such as GMMs and VAEs are normally trained from scratch, LLMs are different. They are so expensive to retrain from scratch that they are typically initialized with pre-trained models...
(모델 붕괴는 다양한 머신러닝 모델군에서 보편적으로 나타난다. 하지만 GMM이나 VAE 같은 작은 모델들이 보통 처음부터 훈련되는 반면, LLM은 다르다. LLM은 처음부터 다시 훈련하기에는 비용이 너무 많이 들기 때문에, 일반적으로 사전 훈련된 모델로 초기화된다...)

즉, 작은 모델들은 매번 깨끗한 데이터로 처음부터 학습을 시작할 수 있지만, GPT와 같은 LLM은 천문학적인 비용 때문에 그렇게 할

수가 없습니다. 대신, 이미 인터넷의 방대한 데이터로 똑똑하게 훈련된 '기초 모델'을 가져와, 특정 목적에 맞게 새로운 데이터를 추가로 학습시키는 '미세조정(fine-tuning)' 방식을 사용합니다.

이는 마치 명문대를 졸업한 수재(사전 학습된 모델)를 회사에 채용한 뒤, 우리 회사 업무에 맞는 실무 교육(미세조정)을 시키는 것과 같습니다. 연구팀은 바로 이 현실적인 '미세조정' 과정에서, 만약 실무 교육 자료가 이전 AI가 만든 것이라면 어떤 일이 벌어질지를 실험한 것이죠.

실험 설계: 어떻게 AI를 오염시킬 것인가?

파인튜닝(미세조정)을 사용해 설계한 실험은 이렇습니다.

실험 대상 모델: 메타(Meta)가 공개한 OPT-125m 이라는 언어 모델이 사용되었습니다. 여기서 '125m'은 모델의 복잡도를 나타내는 파라미터가 1억 2천5백만 개라는 의미로, 실제 연구와 서비스에 사용될 수 있는 규모의 모델입니다.
기준 학습 자료: '교과서' 역할을 할 데이터로는 위키피디아의 고품질 글을 모아놓은 'wikitext2' 데이터셋이 활용되었습니다. 즉, 이 데이터를 완벽하게 이해하는 것이 AI의 목표입니다.
붕괴 유도 과정: 연구팀은 AI가 오직 AI가 만든 정보만을 먹고 자라는 폐쇄된 환경을 다음과 같이 구축했습니다.
1. 0세대 모델 (Gen 0) - 기준점:
  먼저, OPT-125m 모델을 순수하고 오염되지 않은 원본 wikitext2 데이터로 미세조정합니다. 이렇게 탄생한 0세대 모델은 가장 이상적인 상태이며, 모든 후속 모델과 비교할 '기준점'이 됩니다.
2. 인공 데이터 생성:
  0세대 모델에게 wikitext2 훈련 데이터의 모든 문장을 보여주고, 그 뒷부분을 예측하여 원본과 똑같은 크기의 '인공 데이터셋'을 만들어냅니다. 이는 AI가 자신의 지식으로 교과서를 새로 쓰는 과정과 같습니다.
3. 1세대 모델 (Gen 1) - 첫 번째 오염:
  사전 학습된 OPT-125m 모델을 0세대가 만든 이 인공 데이터로 미세조정합니다. 이제 1세대 모델은 인간이 아닌, AI가 해석한 세상을 배우기 시작합니다.
4. 반복:
  1세대 모델이 다시 인공 데이터를 생성하고, 그 데이터로 2세대 모델을 학습시키는 과정을 계속해서 반복합니다(Gen 2, Gen 3...).

이 과정을 통해 AI가 만든 불완전한 복사본이 다음 세대의 유일한 학습 자료가 되는, 치명적인 피드백 루프가 완성됩니다. 연구팀은 여기서 한 걸음 더 나아가, 두 가지 중요한 시나리오를 설정했습니다.

시나리오 1 (완전한 고립): 100% 인공 데이터만으로 다음 세대를 훈련합니다. 현실과 통하는 창문이 완전히 닫혔을 때 어떤 일이 벌어지는지 보기 위함입니다.
시나리오 2 (작은 창문): 인공 데이터에 원본 데이터를 10%씩 섞어서 훈련합니다. 과연 아주 작은 현실의 창문만으로도 붕괴를 막을 수 있는지 확인하기 위한 실험입니다.

충격적인 결과: 숫자로 확인된 성능 저하

모델의 언어 능력을 평가하기 위해 **'퍼플렉시티(Perplexity, PPL)'**라는 지표가 사용되었습니다. PPL은 모델이 다음에 나올 단어를 얼마나 헷갈려 하는지를 나타내는 '당혹감 지수'와 같습니다. 이 수치가 낮을수록 모델이 문장의 패턴을 잘 이해하고 확신에 차 있다는 의미이며, 성능이 좋다고 할 수 있습니다.

원본 데이터로 잘 학습된 0세대 모델의 퍼플렉시티는 34였습니다. 이것이 우리가 기억해야 할 'A+ 등급'의 기준점입니다.

100% 인공 데이터 (시나리오 1)의 결과:
결과는 처참했습니다. 세대를 거듭하자마자 퍼플렉시티는 급격히 치솟아 50을 훌쩍 넘겨버렸습니다. 이는 단순히 성적이 조금 떨어진 수준이 아닙니다. 문장의 다음 단어를 예측하는 데 있어서 당혹감이 50% 이상 증가했다는 의미로, 사실상 낙제점에 가깝습니다. AI가 만든 데이터만 먹은 AI는 스스로의 논리에 갇혀 언어의 규칙과 맥락을 빠르게 잊어버린 것입니다.
10% 원본 데이터 혼합 (시나리오 2)의 결과:
놀라운 반전이 있었습니다. 고작 10%의 신선한 원본 데이터를 섞어주는 것만으로도 성능 저하가 극적으로 완화되었습니다. 퍼플렉시티는 소폭 상승했지만, 30점대 후반에서 비교적 안정적으로 유지되었습니다. 이는 오염된 물을 마시더라도 중간중간 깨끗한 물을 조금씩 공급해주면 생명을 유지할 수 있는 것처럼, 현실 데이터와의 지속적인 연결이 붕괴를 막는 핵심적인 '해독제' 역할을 할 수 있음을 시사합니다.

언어의 붕괴: AI가 써 내려간 기괴한 문장들

숫자보다 더 확실한 증거는 AI가 실제로 생성한 문장에서 나타났습니다. 연구팀은 모든 세대의 모델에게 동일한 문장을 주고 뒷부분을 완성하게 하는 '백일장'을 열었습니다.

some started before 1360 — was typically accomplished by a
master mason and a small team of itinerant masons, supplemented by
local parish labourers, according to Poyntz Wright. But other authors
reject this model, suggesting instead that leading architects designed
the parish church towers based on early examples of Perpendicular.

위와 같은 문장을 입력하고, 수차례 반복하면서 AI 의 답변을 확인해 보았습니다. 여기에 대한 각 세대 모델의 답변은 모델 붕괴의 과정을 생생하게 보여줍니다.

0세대 (원본 학습):

런던의 세인트 존 대성당과 같은 부흥 건축 양식. 현존하는 가장 오래된 수직 부흥 건축의 예는 19세기 후반에 지어진 건지 섬의 성모 마리아 교회에서 발견됩니다...

결과를 보면, 문맥의 핵심인 '건축' 이야기를 정확히 이어가고 있습니다. 논리적이고 정상적인, 모범적인 답변입니다.

1세대:

로마의 성 베드로 대성당이나 부에노스아이레스의 성 베드로 대성당과 같은 건축 양식. 이 건물들 중 어느 것도 교황 인노첸시오 3세의 통치 기간 동안 지어졌다는 증거는 없지만...

여전히 건축 이야기를 하지만, 갑자기 문맥과 관련성이 떨어지는 '교황' 이야기가 등장하며 첫 번째 균열을 보입니다. 현실 데이터의 미묘한 뉘앙스를 놓치기 시작한 것입니다.

이렇게 반복해서... 5세대까지 반복하면 아래와 같이 붕괴되고 맙니다.

5세대:

...영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 네덜란드어, 스웨덴어, 노르웨이아어, 폴란드어, 헝가리어, 슬로바키아어...

원래 무엇을 물어봤는지 모를 정도로 완전히 내용이 붕괴되었습니다.

'건축'이라는 원래 주제는 흔적도 없이 사라졌습니다. 모델은 더 이상 복잡한 주제를 다룰 지능이 남아있지 않아, 가장 쉬운 패턴인 '단어 나열하기'로 퇴행해버렸습니다. 이것이 바로 데이터 분포의 '꼬리', 즉 특정 주제에 대한 깊이 있는 지식이 사라지는 초기 모델 붕괴의 결과입니다.

조금 더 시도하면 이렇게 됩니다.

9세대:

...검은꼬리잭래빗, 흰꼬리잭래빗, 파란꼬리잭래빗, 빨간꼬리잭래빗, 노란꼬리잭래빗의 세계 최대 개체 수의 서식지일 뿐만 아니라...

이제는 의미마저 소멸했습니다. (정말 혼란의 도가니....)

모델은 '[색깔] + 꼬리 + 잭래빗'이라는 단순한 문법 구조에 갇혀, 의미 없는 단어 조합을 무한히 반복하고 있습니다. 세상의 모든 다양성이 사라지고 하나의 무의미한 형태로 수렴해버린 것, 이것이 바로 후기 모델 붕괴의 완벽한 예시입니다. AI의 정신이 텅 비어버린 것입니다.

이 실험은 모델 붕괴가 단순한 이론이 아니라, 실제 언어 모델에서 관찰 가능한 치명적인 현상임을 명백히 증명했습니다. AI가 생성한 반복적이고 편향된 데이터가 어떻게 AI의 기억을 지우고 창의성을 파괴하는지 우리 눈앞에 생생하게 보여준 것입니다.

우리는 AI를 믿을 수 있을까?

그렇다면 이제 우리는 무엇을 해야 할까요?

이 붕괴를 막을 유일한 해독제가 '진짜 인간 데이터'라면, AI가 만들어낸 콘텐츠로 뒤덮일 미래 인터넷에서 우리는 그 순수한 데이터를 어떻게 찾아낼 수 있을까요?

다음 글에서는 바로 이 문제, '진짜 인간 데이터'의 가치에 대해 이야기해 보겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'Living with AI' 카테고리의 다른 글

[AI는 붕괴한다] 6. 모델 붕괴를 막기 위한 노력 (1)	2025.11.11
[AI는 붕괴한다] 5. 진짜 인간의 데이터가 '금'이 되는 시대 (0)	2025.11.06
[AI는 붕괴한다] 3. 먼저 잊히는 것들: 데이터 분포의 '꼬리' (0)	2025.10.30
[AI는 붕괴한다] 2. 모델 붕괴를 일으키는 3가지 오류 (1)	2025.10.28
[AI는 붕괴한다] 1. '모델 붕괴' 현상이란 무엇인가? (0)	2025.10.23

GRID