AI 기술심화

RAG 평가

RAG Evaluation · RAGAS · RAG 메트릭

RAG 평가는 RAG 시스템이 올바른 문서를 찾았는가(검색 품질)와 찾은 문서를 기반으로 정확한 답을 생성했는가(생성 품질)를 체계적으로 측정하는 방법론이다. RAGAS 프레임워크가 사실상 업계 표준이다.

•RAGAS 4대 메트릭: 충실도(근거 기반), 답변 관련성, 컨텍스트 정밀도, 컨텍스트 재현율
•RAG 시스템의 70%가 체계적 평가 프레임워크 없이 운영 — 가장 큰 실전 격차
•법률 RAG도 여전히 17~33% 환각(Stanford, 2025) — "RAG = 환각 해결"은 과장
•주요 도구: RAGAS(오픈소스), ARES(Stanford), DeepEval(50+ 메트릭), LangSmith(프로덕션 관찰)

더 깊이 알고 싶다면

강의 보기 블로그 읽기

아키피디아로 돌아가기