AI 기술중급
프롬프트 캐싱
Prompt Caching · Context Caching
프롬프트 캐싱은 반복되는 프롬프트 접두어(시스템 프롬프트, 지시문 등)를 캐시하여 비용과 레이턴시를 대폭 절감하는 기술이다. LLM 쿼리의 31%가 이전 요청과 의미적 유사성을 보여 캐싱의 잠재적 가치가 크다.
- •Anthropic: 최대 90% 비용 절감, 85% 레이턴시 절감 — 명시적 cache_control 지시 필요
- •OpenAI: 최대 50% 비용 절감, 80% 레이턴시 절감 — 모든 API 요청에서 자동 적용
- •최적 구조: 정적 콘텐츠(시스템 프롬프트)를 앞에, 동적 콘텐츠(사용자 입력)를 뒤에 배치
- •캐시 접두어에 타임스탬프·요청 ID를 포함하면 캐시가 무효화되므로 주의