Hugging Face 與 Cerebras 合作將 Gemma 4 導入即時語音 AI

📰 重點摘要

Hugging Face 聯合 Cerebras、Google DeepMind 與阿里巴巴，推出一套基於 WebSocket 的全開源即時語音對話管線。整個系統採模組化設計，流程依序為：語音輸入後，先以 Nvidia 的 Parakeet 模型做語音辨識，將音訊轉為文字；接著交由 Cerebras 高速推論平台執行 Google DeepMind 的 Gemma 4 31B 視覺語言模型，生成回應文字；最後透過阿里巴巴的 Qwen3TTS 模型將文字合成語音輸出，形成完整的語音到語音閉環。

選用 Cerebras 的核心理由在於解決語言模型推論的延遲瓶頸。許多現有系統雖然中位數延遲尚可接受，但 P95 長尾延遲仍會出現數秒卡頓，在涉及多次工具呼叫或多模態步驟時尤為明顯。Cerebras 的快速且穩定的推論能力，使整體對話感受更接近真人互動的即時性。

此管線已實際應用於超過 9,000 台 Reachy Mini 機器人，驗證其在具身 AI 場景下的可靠性。由於每個層級均可獨立替換，開發者能針對不同助理、機器人或研究專案自行調整技術棧。Hugging Face 已開放 Demo 空間及 huggingface/speech-to-speech 程式庫供社群探索與貢獻。

💬 JudyAI Lab 觀點

Hugging Face聯合Cerebras、Google DeepMind與阿里巴巴，以全開源模組化方式打通ASR→LLM→TTS完整語音閉環，把以往需要各自整合的技術棧做成了可直接取用的開放基礎設施。

這個設計裡最值得AI builder關注的，是它把「P95長尾延遲」而非平均延遲列為核心最佳化目標。選用Cerebras推論平臺的理由正是：在多工具呼叫或多模態步驟下，偶發的數秒卡頓足以毀掉即時對話感，而快速且穩定的推論才能讓互動真正接近真人節奏。更值得借鑑的是三層完全解耦的架構——ASR、LLM、TTS各自可獨立替換，讓開發者能針對瓶頸換料而不需打掉重練。系統已在超過9,000臺Reachy Mini機器人上驗證，說明這種架構在具身AI場景同樣成立。從這個案例我們觀察到：開源協作的關鍵不只是貢獻零件，而是先定義清晰的層間介面。

若你正在規劃語音AI應用，建議先測量系統的P95延遲，而非只看平均數——那才是真實使用者感受的關鍵指標。

📅 原文資訊

發布時間：2026-07-01T00:00
來源原文：https://huggingface.co/blog/cerebras-gemma4-voice-ai

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀