AI 기반중급
합성 데이터
Synthetic Data · 인공 데이터
합성 데이터란 AI 모델이나 알고리즘에 의해 인공적으로 생성된 데이터다. 인터넷 양질 텍스트의 고갈(2026~2032년 예상)로 선택이 아닌 필수가 되었지만, "AI가 AI의 데이터를 먹으면 퇴화한다"는 모델 붕괴 경고도 존재한다.
- •Gartner 예측: 2026년까지 AI 학습 데이터의 60%가 합성 데이터가 될 것이다.
- •Microsoft Phi-4는 50개+ 합성 데이터셋(약 4,000억 토큰)으로 사전학습한 최초의 성공 사례다. DeepSeek-R1은 80만 개 추론 샘플을 합성했다.
- •실제 데이터 + 합성 데이터 혼합이 어느 쪽 단독보다 성능이 대폭 향상된다. 합성만으로는 품질 상한이 있다.
- •모델 붕괴 위험: AI 생성 데이터만으로 학습하면 세대를 거듭할수록 다양성이 줄고 원래 분포에서 멀어진다.