AI 기반중급
자기지도학습
Self-Supervised Learning · SSL
자기지도학습이란 데이터 자체에서 학습 신호를 자동으로 추출하여 인간 라벨 없이 학습하는 방식이다. "다음 토큰 예측"이라는 단순한 과제를 수조 번 반복해 추론, 번역, 코딩까지 가능한 AI를 만들었으며, GPT, Claude, Gemini, Llama 등 모든 LLM의 사전학습이 이 방식이다.
- •라벨링 비용이 사실상 0이다. 지도학습은 의료 이미지 1만 건에 5만~50만 달러가 드는 반면, 자기지도학습은 인터넷 데이터를 그대로 쓴다.
- •대조학습(SimCLR, CLIP), 생성 모델링(GPT, BERT), 예측 학습(다음 토큰 예측) 등 4가지 하위 패러다임이 있다.
- •"다음 단어를 충분히 잘 예측하려면 세상을 이해해야만 한다" — 이것이 단순한 텍스트 예측이 산술, 코딩, 추론까지 가능하게 만드는 이유다.