什麼是 Multimodal(多模態)?

Multimodal 指能同時處理多種型態資料(文字、圖像、音訊、影片)的 AI 模型。早期 LLM 只懂文字,今天 Claude 4.x、GPT-5、Gemini 都是多模態模型——你可以丟一張圖加一段問題進去,模型同時讀懂兩者再回答。Sora 這類影片生成模型則反過來,從文字模態跨到影片模態。

實際應用:我們把 K 線截圖加上文字策略描述丟給 Claude,它能直接從圖辨識頭肩頂、缺口、量價背離等型態,再結合策略給建議。這在純文字 LLM 時代根本做不到,要先用 CV 模型把圖轉成數據才能餵進去。