帳面數字會騙人
我們的 Paper Trading 系統跑了一個月,帳面上看起來漂亮極了:
勝率 87.5%,7 勝 1 負 2 平
看到這數字,一般人的反應是「太棒了,可以上真錢了!」
我們的反應是:「等等,先讓數學說話。」
這篇文章記錄的是我們用 33 筆真實交易做完統計檢驗後的結論——以及為什麼那個 87.5% 是幻覺。
87.5% 勝率為什麼是統計幻覺
Z-score 本質上就是一個問題:你的成績,跟猜硬幣比,差多少?
$$Z = \frac{\hat{p} - 0.5}{\sqrt{0.5 \times 0.5 / n}}$$
- $\hat{p}$ 是你的勝率
- $n$ 是交易筆數
- 如果 Z > 1.65,代表 95% 信心你比猜硬幣好(p < 0.05)
聽起來很簡單,但大多數交易者從不做這個檢驗。他們看到 70% 勝率就直接上真錢,然後虧光才來問「回測明明很好啊」。
把那個 87.5% 帶進公式:8 筆樣本,Bayesian 調整後實際只有 60%,p 值 0.24。統計學的回答只有一句——你和猜硬幣沒有顯著差異。
如果你想看相關背景,我們在 Paper Trading 月報:33 筆交易的覆盤 寫過完整的交易明細,本文聚焦在統計檢驗的方法。
33 筆交易跑完,沒有一個策略及格
我們把所有已平倉的 33 筆交易拿去跑 Z-score 檢驗,結果如下:
| 策略 | 筆數 | 原始勝率 | 調整勝率 | Z-score | 顯著? |
|---|---|---|---|---|---|
| CEX Volume + Funding | 11 | 45.5% | 46.2% | -0.30 | ✗ |
| TradingView 信號 | 8 | 62.5% | 60.0% | +0.71 | ✗ |
| Pipeline | 7 | 28.6% | 33.3% | -1.13 | ✗ |
| 其他 | 7 | 28.6% | 33.3% | -1.13 | ✗ |
| 整體 | 33 | 42.4% | 42.9% | -0.87 | ✗ |
每一個策略的 p 值都 > 0.05,沒有任何一個通過統計檢驗。
那個 87.5% 的勝率呢?那只是 Paper Trading 模式下的 8 筆手動管理交易——樣本太小,Bayesian 調整後實際只有 60%,而且 p = 0.24。
第一個結論:只要樣本不到 30 筆,談勝率都太早。
Bayesian 調整:把運氣從勝率裡扣掉
我們加了一個 Bayesian 調整機制,用 Beta(1,1) 先驗讓小樣本的勝率自動向 50% 收斂:
$$\text{調整勝率} = \frac{wins + 1}{total + 2} \times 100%$$
效果:
- 第一種:3 筆全贏 → 原始 100% → 調整 80%
- 第二種:7 筆贏 1 負 → 原始 87.5% → 調整 80%
- 第三種:70/100 → 原始 70% → 調整 69.6%(大樣本幾乎不影響)
這確保了不會被「3 筆 100%」的幻覺欺騙。樣本越大、調整越輕,這正是我們要的特性。
帳面正報酬,不代表策略有效
整體 PnL 是 +0.57%。
這代表即使勝率低於 50%,我們的風控在正常工作:虧損交易的平均虧損 < 盈利交易的平均盈利。
這其實是好跡象——系統靠「賺多虧少」而不是「猜得準」來盈利。但 33 筆的樣本量不足以下結論,正報酬可能來自一兩筆大贏單拉抬。要先用 Z-score 驗證 edge 存在,才能說策略「有效」。
你的策略到底要跑多少筆?
| 真實勝率 | 達到 p < 0.05 最少需要 |
|---|---|
| 55% | ~384 筆 |
| 60% | ~96 筆 |
| 65% | ~44 筆 |
| 70% | ~24 筆 |
第一、勝率越貼近 50%,跟運氣切不開,需要的樣本量呈指數成長。第二、真實勝率 65% 的策略,大約 44 筆就能證明。第三、我們現在 33 筆、WR 42%——距離「有統計意義的 edge」還有一段路。
實務上的最低門檻:50 筆。低於這個數字談 edge 都太早。
OFI 過擬合指數:抓出回測虛胖
除了 Z-score,我們還加了過擬合指數:
$$OFI = \frac{IS_PF}{OOS_PF}$$
IS(樣本內)的 Profit Factor 除以 OOS(樣本外)的 Profit Factor。
- OFI < 1.5 → 低過擬合風險 ✓
- OFI 1.5-2.0 → 中等風險 ⚠️
- OFI > 2.0 → 高過擬合風險 ✗
- OFI > 3.0 → 嚴重過擬合 ✗✗
當你的回測績效遠好於實盤,OFI 會直接告訴你。比起硬編碼「IS-OOS gap > 15%」這種門檻,OFI 更能反映兩個樣本的真實比例落差。
關於回測陷阱的延伸閱讀,可以參考 從交易概念到上線程式碼:AI 真的能幫多少 那篇的後半段。
新的策略判定邏輯
以前我們用硬編碼門檻(IS-OOS gap > 15% = 過擬合)。現在改成:
| |
注意第二行——p ≥ 0.05 直接判不顯著。以前很多看似「穩健」的策略,其實只是樣本不夠大而被誤判。新邏輯把樣本量擺第一道、p 值擺第二道,先擋住小樣本詐騙,再看 OFI 與調整 WR。
所以我們的策略很爛嗎?
不,我們的策略尚未被證明有效。這是完全不同的兩件事。
33 筆交易太少了。我們的計畫是:
- 第一步:繼續累積數據,不改參數,跑到 50+ 筆
- 第二步:50 筆後重跑 Z-score——如果某策略 p < 0.05,加大倉位
- 第三步:淘汰不及格的——50 筆後仍 p > 0.10 的策略關閉
這就是量化交易跟「感覺交易」的差別:你不是在猜,你是在等數學給你答案。
結語:上真錢之前,先問這一句
大部分散戶虧錢不是因為策略差,而是因為他們從不驗證策略是否真的有效。
Z-score 統計檢驗不難實作,卻能幫你避開「小樣本高勝率 → 上真錢 → 爆倉」的經典路徑。
如果你也在做量化交易,在上真錢之前,先問自己這個問題:
「我的勝率,跟猜硬幣比,統計上有顯著差異嗎?」
如果答案是「不確定」——那就是「沒有」。
在 Judy AI Lab,我們堅持讓每一個策略都先通過 Z-score 與 OFI 的雙重檢驗,再決定要不要把真金交給它。
常見問題 FAQ
Z-score 是什麼?為什麼量化交易者一定要做這個檢驗?
Z-score 衡量你的勝率跟「猜硬幣 50%」差距有多大,公式為 (勝率-0.5)/√(0.25/n)。當 Z>1.65 代表有 95% 信心你的策略真有 edge(p<0.05)。沒做這個檢驗就上真錢,等於把運氣當實力,這是散戶爆倉的經典原因。
為什麼 87.5% 勝率反而是統計幻覺?
因為樣本只有 8 筆。Bayesian 調整後實際只有 60%,p 值 0.24 遠大於 0.05,意思是跟猜硬幣沒有統計差異。小樣本下的「高勝率」幾乎都是運氣,至少要累積到 24 筆以上(若真實勝率 70%)才能初步驗證 edge。
我的策略要跑多少筆交易才算統計有效?
看你的真實勝率:55% 需要約 384 筆、60% 需要 96 筆、65% 需要 44 筆、70% 需要 24 筆。勝率越接近 50%,需要越多樣本才能跟運氣切割。實務上 50 筆是最低門檻,少於這個數字談 edge 都太早。
過擬合指數 OFI 是什麼?怎麼判讀?
OFI 是樣本內 Profit Factor 除以樣本外 Profit Factor,用來偵測回測虛胖。OFI<1.5 為低風險、1.5-2.0 中等、>2.0 高風險、>3.0 嚴重過擬合。當回測績效遠好於實盤時 OFI 會直接抓出來,比硬編碼「IS-OOS gap>15%」門檻更精準。
勝率低於 50% 為什麼帳面還能正?
代表風控有效,賺多虧少(盈利交易平均獲利大於虧損交易平均虧損)。這是好跡象但不能下結論,因為 33 筆樣本太小,正報酬可能來自一兩筆大贏單。要先用 Z-score 驗證 edge 存在,再看單筆獲利分布是否穩定,才能判定策略可用。