EVA-Bench Data 2.0 評測基準發布:涵蓋3大領域、121項工具與213個測試場景
AI 新聞快訊:【英文原文】欄位為空白,沒有任何文字可供摘要。 請確認是否忘記貼上原文摘要內容?貼上後我立即處理。…
AI 新聞快訊:【英文原文】欄位為空白,沒有任何文字可供摘要。 請確認是否忘記貼上原文摘要內容?貼上後我立即處理。…
AI 新聞快訊:【英文原文】欄位是空的,沒有收到可供摘要的英文內容。 請問你是否忘了貼上原文?或者希望我直接抓取那個 HuggingFace blog URL 的頁面內容來撰寫摘要?…
AI 新聞快訊:NVIDIA 針對 Nemotron 系列模型開發出「任務種子合成資料生成」(Task-Seeded SDG)五階段流程:從 lm-eval-harness 選取約 70 個公開任務(約 700 子任務),分為知識密集型(39 任務、約 300 萬筆)與推理密集型(34 任務、約 150 萬筆)兩類…
AI 新聞快訊:IBM Research 發表研究指出,企業 AI 規模化落地的關鍵不在於更大的 LLM,而在於「Agent Logic」——即知識圖譜、程式靜態分析、演算法分解等軟體原語所構成的引導層。這套機制能壓縮 LLM 的上下文空間,同步降低幻覺率與 Token 消耗,使模型行為更可控、成本更可預測。 研…
AI 新聞快訊:JetBrains 於 2026 年 6 月 1 日發布 Mellum2,這是一款基於混合專家架構(MoE)的 120 億參數開源模型,但每次推論僅啟動其中 25 億個活躍參數,使推論速度比同規模模型快逾兩倍,部署成本顯著降低,採用 Apache 2.0 授權公開釋出。 Mellum2 定位並非取…
AI 新聞快訊:NVIDIA 發布 Cosmos 3,一款針對「Physical AI」設計的開放式全模態世界基礎模型(World Foundation Model),最大特點是將影像生成、物理推理與動作輸出整合進單一架構,取代過去需分別部署的 Cosmos Predict、Transfer、Reason、Poli…