Multimodal(멀티모달)이란?
Multimodal AI는 텍스트, 이미지, 오디오, 영상 등 여러 형태의 데이터를 동일 모델 안에서 처리할 수 있습니다. 초기 LLM은 텍스트만 다뤘지만 오늘날 Claude 4.x, GPT-5, Gemini는 모두 멀티모달입니다. 이미지와 질문을 함께 입력하면 두 가지를 동시에 이해하고 답을 만듭니다. Sora 같은 영상 생성 모델은 반대로 텍스트에서 영상으로 모달을 넘어갑니다.
실제 응용: K 차트 스크린샷과 전략 설명을 Claude에 보내면, 이미지에서 헤드앤숄더, 갭, 거래량-가격 다이버전스를 직접 인식한 뒤 전략에 반영해 조언을 줍니다. 텍스트 전용 LLM 시대에는 별도 CV 모델로 차트를 숫자로 변환해야 가능했던 일입니다.