AI 활용중급
데이터 정제·가공
Data Cleaning · Data Preprocessing · ETL · Data Wrangling
수집된 원시 데이터에서 노이즈를 제거하고, 구조화하고, 분석 가능한 형태로 변환하는 파이프라인이다. 데이터 과학자가 업무 시간의 60~80%를 정제에 쓰며, 미국 경제에서 나쁜 데이터로 인한 손실이 연 $3.1조에 달한다.
- •AI 프로젝트의 87%가 프로덕션에 도달하지 못하며, 핵심 원인은 모델이 아니라 데이터 품질
- •데이터 과학자 업무 시간의 60~80%가 정제에 소비 (CrowdFlower/Anaconda)
- •데이터 품질 도구 시장 $2.78B(2025) → $6.34B(2030), CAGR 17.93%
- •GIGO(Garbage In, Garbage Out) — 쓰레기를 넣으면 쓰레기가 나온다