📰 重點摘要
Hugging Face 聯合 Cerebras、Google DeepMind 與阿里巴巴,推出一套基於 WebSocket 的全開源即時語音對話管線。整個系統採模組化設計,流程依序為:語音輸入後,先以 Nvidia 的 Parakeet 模型做語音辨識,將音訊轉為文字;接著交由 Cerebras 高速推論平台執行 Google DeepMind 的 Gemma 4 31B 視覺語言模型,生成回應文字;最後透過阿里巴巴的 Qwen3TTS 模型將文字合成語音輸出,形成完整的語音到語音閉環。
選用 Cerebras 的核心理由在於解決語言模型推論的延遲瓶頸。許多現有系統雖然中位數延遲尚可接受,但 P95 長尾延遲仍會出現數秒卡頓,在涉及多次工具呼叫或多模態步驟時尤為明顯。Cerebras 的快速且穩定的推論能力,使整體對話感受更接近真人互動的即時性。
此管線已實際應用於超過 9,000 台 Reachy Mini 機器人,驗證其在具身 AI 場景下的可靠性。由於每個層級均可獨立替換,開發者能針對不同助理、機器人或研究專案自行調整技術棧。Hugging Face 已開放 Demo 空間及 huggingface/speech-to-speech 程式庫供社群探索與貢獻。
💬 JudyAI Lab 觀點
Hugging Face聯合Cerebras、Google DeepMind與阿里巴巴,以全開源模組化方式打通ASR→LLM→TTS完整語音閉環,把以往需要各自整合的技術棧做成了可直接取用的開放基礎設施。
這個設計裡最值得AI builder關注的,是它把「P95長尾延遲」而非平均延遲列為核心最佳化目標。選用Cerebras推論平臺的理由正是:在多工具呼叫或多模態步驟下,偶發的數秒卡頓足以毀掉即時對話感,而快速且穩定的推論才能讓互動真正接近真人節奏。更值得借鑑的是三層完全解耦的架構——ASR、LLM、TTS各自可獨立替換,讓開發者能針對瓶頸換料而不需打掉重練。系統已在超過9,000臺Reachy Mini機器人上驗證,說明這種架構在具身AI場景同樣成立。從這個案例我們觀察到:開源協作的關鍵不只是貢獻零件,而是先定義清晰的層間介面。
若你正在規劃語音AI應用,建議先測量系統的P95延遲,而非只看平均數——那才是真實使用者感受的關鍵指標。
📅 原文資訊
- 發布時間:2026-07-01T00:00
- 來源原文:https://huggingface.co/blog/cerebras-gemma4-voice-ai