AI 기술중급

프롬프트 캐싱

Prompt Caching · Context Caching

프롬프트 캐싱은 반복되는 프롬프트 접두어(시스템 프롬프트, 지시문 등)를 캐시하여 비용과 레이턴시를 대폭 절감하는 기술이다. LLM 쿼리의 31%가 이전 요청과 의미적 유사성을 보여 캐싱의 잠재적 가치가 크다.

  • Anthropic: 최대 90% 비용 절감, 85% 레이턴시 절감 — 명시적 cache_control 지시 필요
  • OpenAI: 최대 50% 비용 절감, 80% 레이턴시 절감 — 모든 API 요청에서 자동 적용
  • 최적 구조: 정적 콘텐츠(시스템 프롬프트)를 앞에, 동적 콘텐츠(사용자 입력)를 뒤에 배치
  • 캐시 접두어에 타임스탬프·요청 ID를 포함하면 캐시가 무효화되므로 주의

더 깊이 알고 싶다면

아키피디아로 돌아가기