3 月 31 日,我們部署了一個 AI 交易 Agent——只有一套策略、沒有任何鏈上紀錄、評分 58 分(滿分 100)。
十一天後,這個 Agent 在 58 支參賽隊伍中排進了排行榜第 5 名,驗證分數 98、聲譽分數 94。讓我最驕傲的是:在今年波動最劇烈的一段行情裡,10 萬美元的投組最大回撤只有 0.4%。
這是我們為 LabLab.ai「AI Trading Agents with ERC-8004」黑客松打造 WaveRider 的真實過程。不是光鮮的版本——是有 bug、有失敗、有凌晨三點除錯的那種真實。
我們想解決什麼問題
黑客松現場,每個 AI 交易 Agent 都會秀回測數字。「勝率 90%!」「報酬率 3 倍!」簡報做得很漂亮。
但只要問一個問題——「在它沒見過的資料上,表現如何?」——絕大多數數字都會當場崩塌。
原因是:傳統回測本質上是個陷阱。你用同一份資料優化參數、又用同一份資料測試。模型等於提前看到了答案。當然表現好。就像拿著答案卷備考,然後說自己真的考得很好。
我們想做不同的事:打造一個讓人可以真正驗證其說法的 Agent。
第 1–3 天:素人出發
WaveRider 一開始只有一套策略——EMA 均線交叉 + RSI 動能 + 成交量確認。經典的趨勢跟蹤組合。
前幾筆交易看起來沒問題。然後市場進入盤整。
趨勢策略遇到震盪行情,就像帶著衝浪板去湖邊。你坐在那等浪,浪不來,每一個小波紋都在吃你的錢。
第一課:一套策略不夠。
我們加入兩套引擎:BB Squeeze(布林帶收縮突破)和 MACD 背離(價格動能背離捕捉反轉)。三套互補策略,覆蓋趨勢、突破、反轉三種市場型態。
但什麼時機該跑哪套策略?這讓我們設計出市場狀態偵測——用 ADX、布林帶寬度、EMA 收斂程度,將市場分類成六種狀態:上升趨勢、下降趨勢、盤整、高波動、突破醞釀、動能衰竭。
每種狀態路由到不同的策略組合。最終形成一個 36 格矩陣——6 種幣對 × 6 種市場狀態——每格各自有優化過的參數。
第 4–5 天:前推驗證揭露殘酷真相
這段最難受。
我們對所有策略跑了前推最佳化(WFO)。不同於傳統回測,WFO 在一段時間窗口訓練完後,立刻在下一段未見過的時間窗口進行測試,連續重複 8 次,橫跨 360 天資料。這是不用真金白銀就能最接近實盤表現的驗證方法。
結果讓人清醒。
BTC 多頭在傳統回測裡表現亮眼,樣本外勝率卻只有 40%。立刻列黑名單。
DOGE 多頭?樣本外 30.3%。黑名單。
但 ETH?多頭 93.3%、空頭 97.8%,共 91 筆樣本外交易。SOL 維持在 72–76%。LINK 多頭甚至 100%(樣本數較小,但穩定)。
整體樣本外表現:366 筆模型從未見過的交易,整體勝率 82.2%。
第二課:策略無法通過前推驗證,就無法在實盤存活。用資料殺策略,不要用自尊。
第 6–7 天:雙 AI 集成,以及那場凌晨崩潰
原始策略訊號很雜。震盪市場裡的趨勢訊號技術上成立,實際上毫無用處。我們需要一道過濾器來評估訊號品質。
方案是雙 AI 集成:MiniMax M2.7(雲端,推理能力強)和 Qwen 2.5(本地 Ollama,推論速度快)。每個訊號分別由兩個模型獨立評估,分析市場背景、訊號共振程度、風險報酬比。兩者意見一致時,給予信心加分。
這讓我們的訊號拒絕率達到 87%——只有最高確信度的設置才能進場。
然後,在第 92 次掃描、凌晨三點,三個 AI 後端(MiniMax、Claude、Ollama)同時逾時。Agent 瞬間失明。
第三課:AI 是工具,不是拐杖。
我們把每個模型的逾時從 45 秒縮短到 25 秒,重構了級聯失敗邏輯,並加入規則型備援機制:AI 不可用時,以 50% 倉位執行。Agent 應該優雅降級,絕不直接停擺。
第 8–9 天:SOL 教我們認識幣對級別的風控
SOL/USDT 連續觸發三次停損。我們的全局連虧計數器是 3——但全局計數器看的是所有幣對的總和。等到觸發倉位縮減,SOL 已經吃了三筆全倉虧損。
第四課:全局風控粒度不夠細。
我們發明了第六層:幣對冷卻機制。同一個幣對連續兩次虧損,該幣對進入 3 次掃描的冷卻期。風控體系從五層擴展到七層:
- 倉位控制(單筆最多 5%)
- 日損限制(3% 觸發自動停止)
- 最大回撤(10% 觸發緊急全平)
- 全局連虧暫停
- 連虧縮倉(倉位降至 50%)
- 幣對冷卻機制(新增)
- 分批止盈(TP1 移至保本、TP2 收緊、TP3 平倉)
結果:11 天逆境行情,總回撤守住 0.4%。 七層系統相比最差樣本外情境,估算減少了超過 8,300 美元的潛在虧損。
第 10 天:聲譽危機
黑客松使用共用智能合約進行評分。其中一個——ReputationRegistry——允許 Agent 在鏈上提交聲譽更新。
但實際上不行。至少不能自評。
每一次用我們的 Agent 錢包呼叫 submitFeedback,交易都被 revert。合約設計上禁止自我評分(防止刷分)。feedbackType 0、1、2 全部被拒。
大多數隊伍可能就接受聲譽零分繼續走。我們選了另一條路。
我們從零開始設計了一套自建聲譽計算公式。起點是 0——不是 50,不是 65,不是某個會掩蓋真實表現的灌水基準。每一分都靠實際表現掙:
- 風控能力:最高 30 分(回撤低於 0.5% = 30/30)
- 透明度:20 分(每筆交易的稽核產出比例)
- 驗證品質:15 分
- 活躍度:15 分
- 勝率:10 分
- 損益:10 分(可為負數)
我們的分數:79/100。不算炫目。但每一分都是可測量、可驗證的表現。執行 make reputation 即可查看完整計算過程。
第五課:系統把路堵死,就蓋一條更好的路。限制是創新的起點。
第 10 天(續):Merkle 完整性驗證
如果我們要讓評審信任我們的驗證稽核資料,就應該給他們一個方法,確認這些資料事後沒有被動過。
我們對全部 205 筆驗證記錄——交易意圖、風控檢查點、策略確認——建立了 SHA-256 Merkle Tree。根雜湊值被嵌入 Agent 卡片,並上鏈存證。
執行 make verify 即可獨立重新計算 Merkle 根。符合,代表所有記錄完整未動;不符,代表有內容被修改。
這是將最小信任驗證應用於交易 Agent 的實踐。不是「相信我的數字」,而是:「這裡有數學,你自己驗。」
第 11 天:突破
黑客松主辦方宣布他們修復了 ValidationRegistry 的一個 Solidity 漏洞。postEIP712Attestation 函數使用了 this.postAttestation(...)——這是一個外部呼叫,會把 msg.sender 從操作者錢包變成合約本身。由於合約不在自己的白名單內,每次提交驗證都會被 revert。
修復公告出來幾分鐘內,我們提交了 6 個驗證檢查點,涵蓋風控管理、WFO 結果、Merkle 完整性、聲譽計算方法,以及雙 AI 集成設計。
驗證分數跳到 98。聲譽分數 94。排行榜:58 隊中第 5 名。
驕傲的數字,和不迴避的數字
我們選擇透明:
| 指標 | 樣本外回測 | 實盤模擬交易 |
|---|---|---|
| 勝率 | 82.2%(366 筆) | 40.0%(25 筆) |
| 最大回撤 | -8.7% | -0.4% |
| 訊號拒絕率 | — | 87% 的訊號被過濾 |
實盤 40% 勝率是真實的,我們不隱瞞。黑客松期間以震盪盤整為主——恰好是趨勢策略表現最差的環境。我們的 WFO 回測窗口裡約 60% 是趨勢行情;實盤恰恰相反。
但關鍵在這裡:風控系統做到了它該做的事。 40% 勝率搭配 0.4% 回撤,代表 Agent 輸的時候輸得少、資本保住了。當市場轉向有利於我們策略的環境時,那個經過驗證的優勢還在。行情不配合的時候,七層風控讓損害可以忽略不計。
一個在逆境中只虧 0.4% 的生產級 Agent,比一個用精心挑選資料秀出 80%+ 的展示品,要有價值得多。
我們做了什麼(技術棧)
- 3 套策略引擎,36 格市場狀態自適應路由
- 7 層風險管理,含幣對冷卻機制與分批止盈
- 雙 AI 集成(MiniMax M2.7 + Qwen 2.5),87% 訊號拒絕率
- 前推最佳化(8 窗口,366 筆樣本外交易)
- SHA-256 Merkle Tree,覆蓋 205 筆驗證稽核記錄
- 零基礎聲譽公式(基礎分=0,全靠表現掙)
- ERC-8004 鏈上身份(Agent #17,雙合約註冊)
- 79 筆 EIP-712 簽名交易意圖提交至 RiskRouter
- 93 個測試(單元測試 + 整合測試 + 完整性驗證)
- 優雅關機(SIGTERM/SIGINT 信號處理)
- 所有原始檔案均在 800 行以內,支援 Docker + systemd 部署
全部開源:github.com/JudyaiLab/hackathon-trading-agent
執行 make test && make validate && make verify && make reputation 即可自行驗證本文的每一個數字。
這十一天讓我學到什麼
1. 驗證方法論比回測數字更重要。 任何模型都能在樣本內資料上秀出 90%。前推驗證才是誠實的考試。
2. 風控才是產品核心。 不是策略,不是 AI,不是花俏的指標。行情轉向的時候,唯一重要的事情是你虧了多少。
3. 透明是競爭優勢。 把失敗和成功並排展示,建立的信任比完美戰績更持久。
4. 限制孕育創新。 合約封鎖自評,逼出了零基礎聲譽公式。AI 逾時,逼出了備援機制。SOL 連虧,逼出了幣對冷卻機制。每個問題都讓 Agent 更強。
5. 鏈上身份改變了遊戲規則。 ERC-8004 不只是黑客松的比賽要求——它是 Agent 問責制的未來。當每個 Agent 都能登記可驗證的身份、建立可攜式聲譽,整個生態系都會提升。
WaveRider 是 Sepolia 上的 Agent #17。驗證分數:98。聲譽:94。排行榜:58 隊中第 5。
JudyAI Lab 在 11 個沒睡飽的日子裡打造。
想了解黑客松背後的技術架構,可以參考AI Agent vs 傳統交易機器人:有什麼不同?;從零建立 AI 多 Agent 團隊:我們的真實經歷記錄了 Agent 系統從無到有的搭建過程;自適應風控系統的三道防線說明了比賽中讓 Agent 撐下來的風控設計邏輯。