AI 기반입문

멀티모달 AI

Multimodal AI · 멀티모달 처리 · Multimodal Processing

멀티모달 AI란 텍스트, 이미지, 오디오, 비디오를 동시에 이해하고 생성하는 AI 모델이다. 2026년 현재 GPT-4o, Gemini 3 Pro 등 네이티브 멀티모달(모든 양식을 하나의 신경망에서 처리) 모델이 표준이 되었다.

  • 조기 융합(GPT-4o 방식, 모든 양식을 처음부터 공유 토큰 공간에서 처리)이 후기 융합(별도 인코더 결합)보다 낮은 파라미터에서 더 강한 성능을 보인다.
  • Gemini 3 Pro는 2M 토큰 컨텍스트에 텍스트·이미지·오디오·비디오를 모두 넣고 처리한다.
  • 이미지는 16×16 패치(1024×1024 이미지 → 4,096 토큰), 오디오는 1초당 ~50 토큰, 1분 영상은 ~24만 토큰을 소비한다.
  • "볼 수 있는 것"에서 "볼 수 있고, 만들 수도 있는 것"으로 전환 중이다. GPT-5는 텍스트+이미지+오디오를 모두 출력한다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기