AI 기술중급

탈옥 (Jailbreak)

Jailbreak · LLM Jailbreak · AI 탈옥

탈옥(Jailbreak)은 AI 모델의 안전 장치를 우회하여 금지된 콘텐츠를 생성하도록 유도하는 공격 기법이다. 역할극 공격("이전 지시를 무시하고...")이 89.6%로 가장 높은 성공률을 보인다.

  • 역할극 공격이 89.6%로 최고 성공률 — "DAN", "할머니에게 이야기하듯" 등의 패턴
  • 적응적 공격: 발표된 12개 방어를 우회하여 90%+ 성공률 달성
  • Anthropic Constitutional Classifiers++: 183명이 3,000+시간, $15,000 현상금에도 범용 탈옥 미발견
  • 개별 질문을 뚫는 것은 가능하지만, 모든 금지 질문을 뚫는 범용 탈옥은 경제적으로 비실용적

더 깊이 알고 싶다면

아키피디아로 돌아가기