AI 기반입문
AI 편향
AI Bias · 알고리즘 편향 · Algorithmic Bias
AI 편향이란 AI 모델이 학습 데이터나 설계 과정의 편향을 반영하여 특정 집단이나 관점을 차별적으로 처리하는 문제다. 성별, 인종, 문화적 편향이 대표적이며, 정렬과 안전장치로 완화하지만 완전한 제거는 어려운 과제다.
- •학습 데이터 편향(인터넷 텍스트의 편중), 측정 편향(벤치마크의 문화적 치우침), 배포 편향(특정 사용자군 최적화)이 주요 원인이다.
- •탈옥(Jailbreak) 공격으로 안전장치를 우회하는 자율 탈옥 에이전트의 성공률이 97.14%에 달한다.
- •Claude 4 Sonnet이 위해 점수 2.86%로 가장 안전하고, DeepSeek-V3가 90%로 가장 취약하다.
- •12개 공개 방어 기법 메타 분석에서 대부분 90%+ 우회되었다. 안전은 AI가 강해질수록 함께 강해져야 하는 영구 과제다.