Community

真實世界語音評測:VoiceEQ用人類標準量化AI語音品質

AI 新聞快訊：語音AI正快速取代文字成為人機互動的主要介面,涵蓋客服、醫療、教育、娛樂與個人助理等場景。過去幾年語音模型進步顯著,詞錯誤率持續下降,延遲已達到接近真人對話的速度,許多既有評測基準也逐漸逼近飽和。但實際使用者仍能感受到語音AI「哪裡怪怪的」——模型在對話過程中可能聽起來像換了個人、漏掉猶豫或不確定的…

Hugging Face 模型正式登陸 Foundry 託管運算平台

AI 新聞快訊：微軟 Foundry 平台日前宣布整合 Hugging Face 模型，可透過 Foundry Managed Compute 部署開源與自訂權重模型。Foundry 定位為企業級 AI Agent 開發與運營平台，支援來自微軟、OpenAI、Anthropic、Meta、Mistral、DeepS…

Hugging Face 與 Cerebras 合作將 Gemma 4 導入即時語音 AI

AI 新聞快訊：Hugging Face 聯合 Cerebras、Google DeepMind 與阿里巴巴，推出一套基於 WebSocket 的全開源即時語音對話管線。整個系統採模組化設計，流程依序為：語音輸入後，先以 Nvidia 的 Parakeet 模型做語音辨識，將音訊轉為文字；接著交由 Cerebras…

ScarfBench：評測 AI Agent 在企業級 Java 框架遷移任務上的基準表現

AI 新聞快訊：IBM Research 推出 ScarfBench（自包含應用重構基準），專門評估 AI 代理在企業級 Java 框架遷移任務上的真實能力。現有軟體工程基準多聚焦在除錯與程式碼生成，而框架遷移的難度截然不同——不只是翻譯語法，還必須保留執行行為、調整建置系統、處理執行期依賴關係，任何一環出錯都可能…

DiScoFormer：單一 Transformer 同時估算密度與分數，跨分布通用

AI 新聞快訊：機器學習中有一類核心問題：給定一批資料點，如何還原它們背後的分佈？具體而言，需要估計兩個量——密度（density）與分數（score）。密度是直方圖的平滑版本，高峰對應資料聚集處；分數則是對數密度的梯度，指向機率上升最快的方向。擴散式生成模型（如 Stable Diffusion、DALL-E）正…

PP-OCRv6 登陸 Hugging Face：支援50語言、參數規模從150萬到3450萬

AI 新聞快訊：PaddlePaddle 正式推出最新一代通用 OCR 模型 PP-OCRv6，支援文件掃描、截圖、工業標籤、場景文字等多種真實場景的文字偵測與辨識。模型家族分為三個規模層級——tiny、small、medium，參數量從 150 萬到 3,450 萬不等，其中 medium 與 small 兩個層…

MosaicLeaks研究：AI研究代理人真的能保守機密嗎？

AI 新聞快訊：MosaicLeaks 是一項針對「深度研究型 AI 代理隱私洩露」的新研究，揭示了一個被稱為「馬賽克效應」的隱患：當代理同時存取本地私有文件與外部網路工具時，每一筆看似無害的搜尋查詢，累積起來卻可能讓旁觀者拼湊出企業機密。研究以一家醫療機構為例說明：代理為完成一個多步驟問題，先後查詢雲端遷移里…

透過 Strands Agents 與 LeRobot 將 Hugging Face Hub 模型部署至實體機器人硬體

AI 新聞快訊：AWS 開源了 Strands Robots SDK（Apache 2.0 授權），與 Hugging Face 的 LeRobot 框架深度整合，目標是打通機器人從示範資料蒐集到實體硬體部署的完整流程。過去這條路需要五套獨立工具分別處理錄製示範、訓練模型、模擬測試、硬體部署與多機協調，各工具彼此無…

AI 代理串接兩個 Hugging Face Space 自動生成巴黎3D藝廊

AI 新聞快訊：一位開發者讓程式代理人獨立完成了巴黎地標 3D 展示網站的全部資產製作，整個過程沒有手動開啟任何圖像生成工具或 3D 重建軟體。代理人透過直接串接兩個 Hugging Face Space 完成任務：首先呼叫 ideogram-ai/ideogram4，以文字提示將每座地標轉換為黑底標本風格的清晰圖…

打造巴基斯坦通知助手：用 AI 解決在地安全通報問題

AI 新聞快訊：Pakistan Notice Helper 是一款針對巴基斯坦本地詐騙訊息問題開發的小型 AI 安全工具，由開發者在「Build Small」黑客松 Backyard AI 賽道中完成。巴基斯坦用戶長期收到偽裝成銀行、快遞公司、稅務機關、電信業者或政府部門的可疑訊息，辨別真偽本身並非難點，難的是在…

訂閱 AI 週報，每週精選新知：