PP-OCRv6 登陸 Hugging Face：支援50語言、參數規模從150萬到3450萬

📰 重點摘要

PaddlePaddle 正式推出最新一代通用 OCR 模型 PP-OCRv6，支援文件掃描、截圖、工業標籤、場景文字等多種真實場景的文字偵測與辨識。模型家族分為三個規模層級——tiny、small、medium，參數量從 150 萬到 3,450 萬不等，其中 medium 與 small 兩個層級可在單一模型內支援 50 種語言，涵蓋繁體中文、簡體中文、英文、日文及 46 種拉丁字母語言，無需針對不同語系分別部署獨立模型。

在 PaddleOCR 官方多場景基準測試中，PP-OCRv6 medium 達到 86.2% 的偵測 Hmean 與 83.2% 的辨識準確率，相比上一代 PP-OCRv5_server，文字偵測提升 4.6 個百分點、辨識精度提升 5.1 個百分點。

架構層面，此版本以 PPLCNetV4 作為偵測與辨識的統一骨幹網路，偵測模組引入 RepLKFPN（輕量大核特徵金字塔網路），強化對多尺度、旋轉、低解析度文字的處理能力；辨識模組則採用 EncoderWithLightSVTR，結合局部上下文建模與全域注意力機制，改善多語言混排、密集文字及雜訊圖像的辨識品質。

部署端支援 PaddlePaddle、Transformers 及 ONNX Runtime 三種後端，可視資源限制靈活選擇推論環境，開發者可透過線上 Demo 直接試用後再整合至生產系統。

💬 JudyAI Lab 觀點

PP-OCRv6把「50種語言靠一個模型搞定」這件事從研究推進到實際部署，對有多語言檔案處理需求的AI應用來說，這個進展值得認真看。

從我們AI builder的角度觀察，這次升級最有意思的地方不是5個百分點的精度提升，而是架構設計上的一個核心選擇：把多語言支援內建到單一模型，而不是讓開發者自己維護多套語系模型。過去多語言OCR往往讓版本管理變得繁瑣，PP-OCRv6把這個複雜度往下壓了一層。加上三個規模層級（150萬到3,450萬引數）搭配PaddlePaddle、Transformers及ONNX Runtime三種推論後端，讓資源受限的場景也有選擇空間。這種「先讓你試完再決定整合」的部署思維，是值得借鑑的產品設計邏輯。

如果你的專案有截圖或檔案解析需求，直接開官方線上Demo跑一遍真實資料，比看技術報告更能快速判斷這個模型適不適合你的場景。

📅 原文資訊

發布時間：2026-06-22T13:18
來源原文：https://huggingface.co/blog/PaddlePaddle/pp-ocrv6

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀