【強(qiáng)烈推薦】.NET開源的OCR文字識別工具

2023.10.29 江蘇

前言

現(xiàn)如今，大家對OCR的需求與日俱增，但是對我們.NET開發(fā)人員來說，卻基本并沒有什么趁手的工具，大部分都是基于Python去調(diào)用的，習(xí)慣了.NET優(yōu)秀的語法，如果不是必要，其實是很不想去適應(yīng)其他語言的。

這套源碼我是從去年開始接觸的，不過到最后因為沒有實際應(yīng)用，所以最近沒有太多的關(guān)注，但是作者還是在不停的更新中，交流群也是非?；钴S。

項目描述

PaddleOCRSharp 是一個基于百度飛槳PaddleOCR的.NET版本OCR工具類庫。項目核心組件PaddleOCR.dll,由C++編寫，根據(jù)百度飛槳PaddleOCR的C++代碼修改并優(yōu)化而成。目前已經(jīng)支持C++、.NET、Python、Golang、Rust等開發(fā)語言的直接API接口調(diào)用。項目包含文本識別、文本檢測、表格識別功能。本項目針對小圖識別不準(zhǔn)的情況下做了優(yōu)化，比飛槳原代碼識別準(zhǔn)確率有所提高。包含總模型僅8.6M的超輕量級中文OCR，單模型支持中英文數(shù)字組合識別、豎排文本識別、長文本識別。同時支持中英文、純英文以及多種語言文本檢測識別。

PaddleOCRSharp封裝極其簡化，實際調(diào)用僅幾行代碼，極大的方便了中下游開發(fā)者的使用和降低了PaddleOCR的使用入門級別，同時提供不同的.NET框架使用，方便各個行業(yè)應(yīng)用開發(fā)與部署。Nuget包即裝即用，可以離線部署，不需要網(wǎng)絡(luò)就可以識別的高精度中英文OCR。

本項目支持官方所有公開的通用OCR模型，PPOCRV2、PPOCRV3、PPOCRV4。如果使用v2模型，請設(shè)置OCR識別參數(shù)OCRParameter對象的屬性rec_img_h=32，本項目默認(rèn)使用V3模型，默認(rèn)rec_img_h=48：

本項目只能在X64的CPU上編譯和使用，只能在avx指令集上的CPU上使用。

本項目目前支持以下.NET框架：

net35;net40;net45;net451;net452;net46;net461;net462;net47;net471;net472;net48;net481; netstandard2.0;netcoreapp3.1; net5.0;net6.0;net7.0;net8.0

本項目提供了兩個SDK，一個是C++版本，一個是.net版本，.net版本是對C++版本的二次封裝，其他語言開發(fā)亦是調(diào)用C++版本。同時也提供了Go、Python、C++的調(diào)用示例代碼

支持的模型

OCR識別模型庫支持官方所有的模型，也支持自己訓(xùn)練的模型。完全按照飛槳OCR接口搭橋。本項目部署自帶的一種輕量版8.6M模型庫、服務(wù)器版模型庫（更準(zhǔn)確，需要自行下載），可以自行更改模型庫適用實際需求。

模型名稱

模型大小

下載地址

備注

ch_PP-OCRv2