Multimodal（多模態）

Multimodal 指能同時處理多種型態資料（文字、圖像、音訊、影片）的 AI 模型。Claude 4.x、GPT-5、Gemini 都是多模態模型，你可以丟一張圖+問題進去，模型同時讀懂兩者再回答。實際應用：我們把 K 線截圖+文字策略丟給 Claude，它能看圖判斷型態，這在純文字時代做不到 — Judy AI Lab AI 詞彙庫

core beginner

什麼是 Multimodal（多模態）？

Multimodal 指能同時處理多種型態資料（文字、圖像、音訊、影片）的 AI 模型。早期 LLM 只懂文字，今天 Claude 4.x、GPT-5、Gemini 都是多模態模型——你可以丟一張圖加一段問題進去，模型同時讀懂兩者再回答。Sora 這類影片生成模型則反過來，從文字模態跨到影片模態。

實際應用：我們把 K 線截圖加上文字策略描述丟給 Claude，它能直接從圖辨識頭肩頂、缺口、量價背離等型態，再結合策略給建議。這在純文字 LLM 時代根本做不到，要先用 CV 模型把圖轉成數據才能餵進去。

什麼是 Multimodal（多模態）？#

相關術語

訂閱 AI 週報，每週精選新知：

什麼是 Multimodal（多模態）？