AI 활용중급
웹 크롤링과 스크래핑
Web Scraping · Web Crawling · 웹 스크래핑 · 데이터 크롤링
웹에서 데이터를 수집하고 구조화하는 기술로, AI는 스크래핑 코드 자동 생성과 LLM 기반 비정형 HTML→정형 데이터 변환 두 역할을 한다. 2026년 TLS JA4 핑거프린팅과 ML 행동 분석으로 단순 스텔스가 무력화되었다.
- •Playwright 24시간 30,000 URL 수집(Selenium 8,000 대비 3.75배)
- •LLM 데이터 추출 F1 점수 0.9567(최적 조건), CSS 셀렉터 100%(구조 불변 시)
- •한국 대법원(2022): 공개 데이터 스크래핑 합법, 보안 우회(CAPTCHA 등)는 불법
- •웹 스크래핑 시장 $1.03B(2025), AI 기반 스크래핑 CAGR 39.4%