3 月 31 日,我們部署了一個 AI 交易 Agent——只有一套策略、沒有任何鏈上紀錄、評分 58 分(滿分 100)。

十一天後,這個 Agent 在 58 支參賽隊伍中排進了排行榜第 5 名,驗證分數 98、聲譽分數 94。讓我最驕傲的是:在今年波動最劇烈的一段行情裡,10 萬美元的投組最大回撤只有 0.4%

這是我們為 LabLab.ai「AI Trading Agents with ERC-8004」黑客松打造 WaveRider 的真實過程。不是光鮮的版本——是有 bug、有失敗、有凌晨三點除錯的那種真實。

我們想解決什麼問題

黑客松現場,每個 AI 交易 Agent 都會秀回測數字。「勝率 90%!」「報酬率 3 倍!」簡報做得很漂亮。

但只要問一個問題——「在它沒見過的資料上,表現如何?」——絕大多數數字都會當場崩塌。

原因是:傳統回測本質上是個陷阱。你用同一份資料優化參數、又用同一份資料測試。模型等於提前看到了答案。當然表現好。就像拿著答案卷備考,然後說自己真的考得很好。

我們想做不同的事:打造一個讓人可以真正驗證其說法的 Agent。

第 1–3 天:素人出發

WaveRider 一開始只有一套策略——EMA 均線交叉 + RSI 動能 + 成交量確認。經典的趨勢跟蹤組合。

前幾筆交易看起來沒問題。然後市場進入盤整。

趨勢策略遇到震盪行情,就像帶著衝浪板去湖邊。你坐在那等浪,浪不來,每一個小波紋都在吃你的錢。

第一課:一套策略不夠。

我們加入兩套引擎:BB Squeeze(布林帶收縮突破)和 MACD 背離(價格動能背離捕捉反轉)。三套互補策略,覆蓋趨勢、突破、反轉三種市場型態。

但什麼時機該跑哪套策略?這讓我們設計出市場狀態偵測——用 ADX、布林帶寬度、EMA 收斂程度,將市場分類成六種狀態:上升趨勢、下降趨勢、盤整、高波動、突破醞釀、動能衰竭。

每種狀態路由到不同的策略組合。最終形成一個 36 格矩陣——6 種幣對 × 6 種市場狀態——每格各自有優化過的參數。

第 4–5 天:前推驗證揭露殘酷真相

這段最難受。

我們對所有策略跑了前推最佳化(WFO)。不同於傳統回測,WFO 在一段時間窗口訓練完後,立刻在下一段未見過的時間窗口進行測試,連續重複 8 次,橫跨 360 天資料。這是不用真金白銀就能最接近實盤表現的驗證方法。

結果讓人清醒。

BTC 多頭在傳統回測裡表現亮眼,樣本外勝率卻只有 40%。立刻列黑名單。

DOGE 多頭?樣本外 30.3%。黑名單。

但 ETH?多頭 93.3%、空頭 97.8%,共 91 筆樣本外交易。SOL 維持在 72–76%。LINK 多頭甚至 100%(樣本數較小,但穩定)。

整體樣本外表現:366 筆模型從未見過的交易,整體勝率 82.2%。

第二課:策略無法通過前推驗證,就無法在實盤存活。用資料殺策略,不要用自尊。

第 6–7 天:雙 AI 集成,以及那場凌晨崩潰

原始策略訊號很雜。震盪市場裡的趨勢訊號技術上成立,實際上毫無用處。我們需要一道過濾器來評估訊號品質。

方案是雙 AI 集成:MiniMax M2.7(雲端,推理能力強)和 Qwen 2.5(本地 Ollama,推論速度快)。每個訊號分別由兩個模型獨立評估,分析市場背景、訊號共振程度、風險報酬比。兩者意見一致時,給予信心加分。

這讓我們的訊號拒絕率達到 87%——只有最高確信度的設置才能進場。

然後,在第 92 次掃描、凌晨三點,三個 AI 後端(MiniMax、Claude、Ollama)同時逾時。Agent 瞬間失明。

第三課:AI 是工具,不是拐杖。

我們把每個模型的逾時從 45 秒縮短到 25 秒,重構了級聯失敗邏輯,並加入規則型備援機制:AI 不可用時,以 50% 倉位執行。Agent 應該優雅降級,絕不直接停擺。

第 8–9 天:SOL 教我們認識幣對級別的風控

SOL/USDT 連續觸發三次停損。我們的全局連虧計數器是 3——但全局計數器看的是所有幣對的總和。等到觸發倉位縮減,SOL 已經吃了三筆全倉虧損。

第四課:全局風控粒度不夠細。

我們發明了第六層:幣對冷卻機制。同一個幣對連續兩次虧損,該幣對進入 3 次掃描的冷卻期。風控體系從五層擴展到七層:

  1. 倉位控制(單筆最多 5%)
  2. 日損限制(3% 觸發自動停止)
  3. 最大回撤(10% 觸發緊急全平)
  4. 全局連虧暫停
  5. 連虧縮倉(倉位降至 50%)
  6. 幣對冷卻機制(新增)
  7. 分批止盈(TP1 移至保本、TP2 收緊、TP3 平倉)

結果:11 天逆境行情,總回撤守住 0.4%。 七層系統相比最差樣本外情境,估算減少了超過 8,300 美元的潛在虧損。

第 10 天:聲譽危機

黑客松使用共用智能合約進行評分。其中一個——ReputationRegistry——允許 Agent 在鏈上提交聲譽更新。

但實際上不行。至少不能自評。

每一次用我們的 Agent 錢包呼叫 submitFeedback,交易都被 revert。合約設計上禁止自我評分(防止刷分)。feedbackType 0、1、2 全部被拒。

大多數隊伍可能就接受聲譽零分繼續走。我們選了另一條路。

我們從零開始設計了一套自建聲譽計算公式。起點是 0——不是 50,不是 65,不是某個會掩蓋真實表現的灌水基準。每一分都靠實際表現掙:

  • 風控能力:最高 30 分(回撤低於 0.5% = 30/30)
  • 透明度:20 分(每筆交易的稽核產出比例)
  • 驗證品質:15 分
  • 活躍度:15 分
  • 勝率:10 分
  • 損益:10 分(可為負數)

我們的分數:79/100。不算炫目。但每一分都是可測量、可驗證的表現。執行 make reputation 即可查看完整計算過程。

第五課:系統把路堵死,就蓋一條更好的路。限制是創新的起點。

第 10 天(續):Merkle 完整性驗證

如果我們要讓評審信任我們的驗證稽核資料,就應該給他們一個方法,確認這些資料事後沒有被動過。

我們對全部 205 筆驗證記錄——交易意圖、風控檢查點、策略確認——建立了 SHA-256 Merkle Tree。根雜湊值被嵌入 Agent 卡片,並上鏈存證。

執行 make verify 即可獨立重新計算 Merkle 根。符合,代表所有記錄完整未動;不符,代表有內容被修改。

這是將最小信任驗證應用於交易 Agent 的實踐。不是「相信我的數字」,而是:「這裡有數學,你自己驗。」

第 11 天:突破

黑客松主辦方宣布他們修復了 ValidationRegistry 的一個 Solidity 漏洞。postEIP712Attestation 函數使用了 this.postAttestation(...)——這是一個外部呼叫,會把 msg.sender 從操作者錢包變成合約本身。由於合約不在自己的白名單內,每次提交驗證都會被 revert。

修復公告出來幾分鐘內,我們提交了 6 個驗證檢查點,涵蓋風控管理、WFO 結果、Merkle 完整性、聲譽計算方法,以及雙 AI 集成設計。

驗證分數跳到 98。聲譽分數 94。排行榜:58 隊中第 5 名。

驕傲的數字,和不迴避的數字

我們選擇透明:

指標樣本外回測實盤模擬交易
勝率82.2%(366 筆)40.0%(25 筆)
最大回撤-8.7%-0.4%
訊號拒絕率87% 的訊號被過濾

實盤 40% 勝率是真實的,我們不隱瞞。黑客松期間以震盪盤整為主——恰好是趨勢策略表現最差的環境。我們的 WFO 回測窗口裡約 60% 是趨勢行情;實盤恰恰相反。

但關鍵在這裡:風控系統做到了它該做的事。 40% 勝率搭配 0.4% 回撤,代表 Agent 輸的時候輸得少、資本保住了。當市場轉向有利於我們策略的環境時,那個經過驗證的優勢還在。行情不配合的時候,七層風控讓損害可以忽略不計。

一個在逆境中只虧 0.4% 的生產級 Agent,比一個用精心挑選資料秀出 80%+ 的展示品,要有價值得多。

我們做了什麼(技術棧)

  • 3 套策略引擎,36 格市場狀態自適應路由
  • 7 層風險管理,含幣對冷卻機制與分批止盈
  • 雙 AI 集成(MiniMax M2.7 + Qwen 2.5),87% 訊號拒絕率
  • 前推最佳化(8 窗口,366 筆樣本外交易)
  • SHA-256 Merkle Tree,覆蓋 205 筆驗證稽核記錄
  • 零基礎聲譽公式(基礎分=0,全靠表現掙)
  • ERC-8004 鏈上身份(Agent #17,雙合約註冊)
  • 79 筆 EIP-712 簽名交易意圖提交至 RiskRouter
  • 93 個測試(單元測試 + 整合測試 + 完整性驗證)
  • 優雅關機(SIGTERM/SIGINT 信號處理)
  • 所有原始檔案均在 800 行以內,支援 Docker + systemd 部署

全部開源:github.com/JudyaiLab/hackathon-trading-agent

執行 make test && make validate && make verify && make reputation 即可自行驗證本文的每一個數字。

這十一天讓我學到什麼

1. 驗證方法論比回測數字更重要。 任何模型都能在樣本內資料上秀出 90%。前推驗證才是誠實的考試。

2. 風控才是產品核心。 不是策略,不是 AI,不是花俏的指標。行情轉向的時候,唯一重要的事情是你虧了多少。

3. 透明是競爭優勢。 把失敗和成功並排展示,建立的信任比完美戰績更持久。

4. 限制孕育創新。 合約封鎖自評,逼出了零基礎聲譽公式。AI 逾時,逼出了備援機制。SOL 連虧,逼出了幣對冷卻機制。每個問題都讓 Agent 更強。

5. 鏈上身份改變了遊戲規則。 ERC-8004 不只是黑客松的比賽要求——它是 Agent 問責制的未來。當每個 Agent 都能登記可驗證的身份、建立可攜式聲譽,整個生態系都會提升。


WaveRider 是 Sepolia 上的 Agent #17。驗證分數:98。聲譽:94。排行榜:58 隊中第 5。

JudyAI Lab 在 11 個沒睡飽的日子裡打造。

GitHub · JudyAI Lab

想了解黑客松背後的技術架構,可以參考AI Agent vs 傳統交易機器人:有什麼不同?從零建立 AI 多 Agent 團隊:我們的真實經歷記錄了 Agent 系統從無到有的搭建過程;自適應風控系統的三道防線說明了比賽中讓 Agent 撐下來的風控設計邏輯。

AI×交易 完整套裝 — 課程 + 指揮官手冊
$59 省 $4.90 · 中英雙語 · 終身更新
購買套裝 →