AI 기술중급

프롬프트 인젝션

Prompt Injection · 프롬프트 주입

프롬프트 인젝션은 사용자 입력이나 외부 데이터에 악의적 지시를 삽입하여 LLM의 행동을 의도치 않게 변경하는 공격이다. OWASP LLM Top 10에서 2년 연속 1위 보안 위협으로 선정되었다.

•OWASP LLM01:2025 — 2년 연속 1위. 직접 인젝션(사용자 입력)과 간접 인젝션(외부 소스)으로 구분
•LLM이 "지시"와 "데이터"를 구분하지 못하는 구조적 한계 — 근본적 해결 불가능
•OpenAI·Anthropic·DeepMind 공동 연구(2025.10): 12개 방어 기법을 적응적 공격이 90%+ 성공률로 뚫음
•Anthropic Constitutional Classifiers++: 1% 비용으로 95%+ 탈옥 차단 — "경제적으로 비실용적으로 만드는" 방어
•Meta(2025.10): "가드레일은 LLM 밖에 있어야 한다. 프롬프트 내 보안은 이미 진 싸움"

더 깊이 알고 싶다면