AI 기술심화
RAG 평가
RAG Evaluation · RAGAS · RAG 메트릭
RAG 평가는 RAG 시스템이 올바른 문서를 찾았는가(검색 품질)와 찾은 문서를 기반으로 정확한 답을 생성했는가(생성 품질)를 체계적으로 측정하는 방법론이다. RAGAS 프레임워크가 사실상 업계 표준이다.
- •RAGAS 4대 메트릭: 충실도(근거 기반), 답변 관련성, 컨텍스트 정밀도, 컨텍스트 재현율
- •RAG 시스템의 70%가 체계적 평가 프레임워크 없이 운영 — 가장 큰 실전 격차
- •법률 RAG도 여전히 17~33% 환각(Stanford, 2025) — "RAG = 환각 해결"은 과장
- •주요 도구: RAGAS(오픈소스), ARES(Stanford), DeepEval(50+ 메트릭), LangSmith(프로덕션 관찰)