AI 기반입문

AI 편향

AI Bias · 알고리즘 편향 · Algorithmic Bias

AI 편향이란 AI 모델이 학습 데이터나 설계 과정의 편향을 반영하여 특정 집단이나 관점을 차별적으로 처리하는 문제다. 성별, 인종, 문화적 편향이 대표적이며, 정렬과 안전장치로 완화하지만 완전한 제거는 어려운 과제다.

  • 학습 데이터 편향(인터넷 텍스트의 편중), 측정 편향(벤치마크의 문화적 치우침), 배포 편향(특정 사용자군 최적화)이 주요 원인이다.
  • 탈옥(Jailbreak) 공격으로 안전장치를 우회하는 자율 탈옥 에이전트의 성공률이 97.14%에 달한다.
  • Claude 4 Sonnet이 위해 점수 2.86%로 가장 안전하고, DeepSeek-V3가 90%로 가장 취약하다.
  • 12개 공개 방어 기법 메타 분석에서 대부분 90%+ 우회되었다. 안전은 AI가 강해질수록 함께 강해져야 하는 영구 과제다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기