做穩定幣的 Tether,怎麼突然搞起 AI 了?

如果你跟我一樣有在關注 AI 跟加密貨幣的交叉領域,最近這則新聞應該有讓你停下來想了一下。

Tether — 對,就是那個 USDT 的 Tether — 推出了一個叫 QVAC Fabric LLM 的東西。簡單一句話講就是:你現在可以在手機上微調大型語言模型了。

不是跑推論而已,是真的訓練。在手機上。

我第一反應也是「蛤?」但看完技術細節之後,覺得這件事比表面看起來的有意思很多。


QVAC Fabric 到底是什麼?

先講它解決了什麼問題。

現在要微調一個 LLM,你通常需要:一張 A100 或 H100 GPU、一個雲端帳號(AWS/Azure/GCP)、然後把你的資料上傳到別人的伺服器上。

對大公司來說這不是問題,但對個人開發者或中小企業?成本高、隱私風險大、而且你完全依賴雲端服務商。

QVAC Fabric 的做法是把整個微調流程搬到本地裝置上。它做了幾件關鍵的事:

1. 把 LoRA 塞進 llama.cpp

LoRA(Low-Rank Adaptation)是目前最流行的高效微調方法 — 不動原始模型的權重,只額外加一小組可訓練參數。QVAC Fabric 是第一個把完整 LoRA 微調直接整合進 llama.cpp 執行環境的框架。

這代表你不需要 PyTorch、不需要 CUDA,只靠 llama.cpp 就能跑微調。

2. 用 Vulkan 取代 CUDA

這是最聰明的設計決策之一。

CUDA 只能跑在 NVIDIA 的 GPU 上。但 Vulkan 是跨平台的 GPU 計算介面,NVIDIA、AMD、Intel、Apple Silicon、Qualcomm Adreno 全部都支援。

一套程式碼,所有硬體都能跑。 手機、筆電、桌機、伺服器,同一個 pipeline。

3. Dynamic Tiling 解決手機記憶體瓶頸

手機 GPU 的記憶體通常只有幾 GB,根本塞不下完整的矩陣運算。QVAC Fabric 的解法是 Dynamic Tiling — 把大型矩陣運算拆成小塊,依序處理再組裝結果。

犧牲一點速度,但換來的是:手機真的能跑起來。


實際跑起來多快?

這是我最關心的數據:

裝置微調時間
NVIDIA RTX 4090(桌機 GPU)約 45 分鐘
Qualcomm Adreno 830(手機 GPU)約 13 小時

13 小時聽起來很久?但這是 人類史上第一次在手機等級的 GPU 上完成 LLM 微調。而且是你睡一覺起來就好了。

品質方面,他們的 benchmark 結果跟 PyTorch 在業界標準測試上不相上下,某些指標甚至稍微好一點。


BitNet 1-bit:讓 AI 模型瘦到不可思議

除了 LoRA 微調之外,QVAC 還整合了微軟的 BitNet 架構支援。

傳統 LLM 每個參數用 16-bit 或 32-bit 浮點數儲存。BitNet 把參數壓縮到只剩三個值:-1、0、+1

效果是什麼?原本動輒幾 GB 甚至幾十 GB 的模型,記憶體用量可以大幅壓縮到一般手機都能負擔的程度。

QVAC 的 BitNet LoRA 框架號稱是全球第一個跨平台的實作 — 支援 Llama3、Qwen3、Gemma3 這些主流模型架構。


為什麼是 Tether?

你可能會問:一個做穩定幣的公司為什麼要做 AI 框架?

其實 Tether 過去一年已經在佈局了。他們有一個叫 QVAC 的生態系,包含:

  • QVAC Workbench — 本地 AI 工作站 app
  • QVAC Health — 健康數據 AI
  • Genesis II — 1480 億 token 的訓練資料集
  • 現在加上 QVAC Fabric — 微調框架

Paolo Ardoino(Tether CEO)講得很直白:

「AI 不應該只被大型雲端平台控制。QVAC Fabric 讓個人和企業能在自己的條件下執行推論和微調強大的模型。」

這跟加密貨幣圈的核心精神其實是同一件事:去中心化、自主權、不靠第三方。

只是這次不是金融,是 AI。


這件事為什麼重要?我的觀點

我們團隊每天都在跟各種 AI 模型打交道 — Claude、Gemini、MiniMax,光是在不同模型之間分工配合就是一門學問。所以看到這個消息的時候,我想的不只是「酷」,而是這會怎麼改變整個生態。

三個我覺得值得注意的方向:

第一,隱私。 現在你把文件丟給 ChatGPT 分析,那些資料就上雲了。如果你能在自己的手機上跑一個微調過的模型,資料完全不出裝置 — 這對醫療、法律、金融領域是巨大的突破。

第二,成本。 現在微調一次模型在雲端可能花幾十到幾百美金。如果你的筆電就能做這件事,個人開發者和小團隊的門檻直接降到接近零。

第三,個人化。 每個人都能訓練一個只屬於自己的 AI — 用你自己的資料、你的寫作風格、你的專業知識。不是通用的 GPT,是 你的 GPT。這其實就是我們團隊一直在做的事,只是我們現在用的是 API + prompt engineering + agent 架構。如果未來能在本地做到,很多玩法會完全不一樣。


現在能用了嗎?

可以。QVAC Fabric 已經以 Apache 2.0 開源授權釋出,你可以直接去 GitHub 下載。微調部分在 qvac-rnd-fabric-llm-finetune 這個 repo。Hugging Face 上也有預編譯的二進制檔和 adapter。

支援的模型包括 Llama3、Qwen3、Gemma3,涵蓋 iOS、Android、Windows、macOS、Linux 全平台。

不過說實話,現在這個東西的目標族群還是開發者。你需要對 llama.cpp 和模型微調有基本概念才玩得起來。但以開源社群的速度,我猜很快就會有人包成一鍵安裝的 app。


結論

Tether 做 AI 這件事,聽起來很跳 tone,但仔細想想其實很合邏輯 — 穩定幣要的是去中心化金融,QVAC 要的是去中心化 AI。底層哲學一模一樣。

而且他們不是畫大餅,是真的把東西做出來了、開源了、benchmark 跑出來了。光是「手機上微調 LLM」這一點,就已經是技術里程碑了。

AI 的未來不一定在雲端。可能就在你口袋裡。


延伸閱讀:

AI×交易 完整攻略 — 13 章實戰課程
$49 · 技術分析 + 風控管理 + Python 自動化交易
了解更多 →