AI 기반입문

AI 편향

AI Bias · 알고리즘 편향 · Algorithmic Bias

AI 편향이란 AI 모델이 학습 데이터나 설계 과정의 편향을 반영하여 특정 집단이나 관점을 차별적으로 처리하는 문제다. 성별, 인종, 문화적 편향이 대표적이며, 정렬과 안전장치로 완화하지만 완전한 제거는 어려운 과제다.

•학습 데이터 편향(인터넷 텍스트의 편중), 측정 편향(벤치마크의 문화적 치우침), 배포 편향(특정 사용자군 최적화)이 주요 원인이다.
•탈옥(Jailbreak) 공격으로 안전장치를 우회하는 자율 탈옥 에이전트의 성공률이 97.14%에 달한다.
•Claude 4 Sonnet이 위해 점수 2.86%로 가장 안전하고, DeepSeek-V3가 90%로 가장 취약하다.
•12개 공개 방어 기법 메타 분석에서 대부분 90%+ 우회되었다. 안전은 AI가 강해질수록 함께 강해져야 하는 영구 과제다.

관련 개념

할루시네이션 AI 정렬 AI 윤리

더 깊이 알고 싶다면

강의 보기 블로그 읽기

아키피디아로 돌아가기