PaddleOCR 2.9 發(fā)布，正式開源文本圖像智能分析利器

2024.10.19

關(guān)注

視覺/圖像重磅干貨，第一時間送達(dá)!

OCR 方向的工程師，之前一定聽說過 PaddleOCR 這個項(xiàng)目。目前項(xiàng)目累計(jì) Star數(shù)量已超過 43k+ ，安裝包月下載量超過 40w+ 。

滑動查看更多圖片

?本次 PaddleOCR 最新發(fā)版，帶來兩大重磅升級，包括：

發(fā)布文檔場景信息抽取v3（PP-ChatOCRv3-doc）開源版，大幅提升了文本圖像版面解析能力，充分發(fā)揮文心一言語言理解優(yōu)勢，信息抽取整體效果相比于上一個版本提升 6 %，同時新增 7 個實(shí)用的 OCR 基礎(chǔ)模型。
支持 OCR 領(lǐng)域低代碼全流程開發(fā)能力，通過極簡的 Python API 一鍵調(diào)用 17個 OCR 相關(guān)模型，提供基于統(tǒng)一命令和圖形界面兩種方式，實(shí)現(xiàn)模型簡潔高效的使用、組合與定制。支持各種主流硬件如英偉達(dá)GPU、昆侖芯、昇騰和寒武紀(jì)無縫切換。

?PaddleOCR 代碼庫地址，歡迎大家star：

https://github.com/PaddlePaddle/PaddleOCR?

PP-ChatOCRv3-doc 在線體驗(yàn)地址：

https://aistudio.baidu.com/community/app/182491/webUI?

下面我們就對上述升級依次進(jìn)行說明。

?

文檔場景信息抽取v3開源版

PP-ChatOCRv3-doc 的系統(tǒng)流程如下圖所示：首先輸入預(yù)測圖片，送入通用版面分析系統(tǒng)，經(jīng)過版面分析后，預(yù)測圖像中的文字信息和表格結(jié)構(gòu)。將版面分析系統(tǒng)預(yù)測出的版面類別、文字、表格結(jié)構(gòu)與 Query 之間進(jìn)行向量檢索，得到與 Query 相關(guān)的文本信息，然后送入 Prompt 生成器重新組合成，基于文心大語言模型將海量數(shù)據(jù)和知識的融合，信息抽取準(zhǔn)確率高且應(yīng)用廣泛。其中版面分析系統(tǒng)中集成了圖像矯正（可選）、版面區(qū)域定位、常規(guī)文本檢測、印章文本檢測、文本識別、表格識別等多個功能，可實(shí)現(xiàn) CPU/GPU 上的高精度實(shí)時預(yù)測。通過大小模型的融合策略，各部分得以充分展現(xiàn)其優(yōu)勢：小模型以其高精度的圖像處理能力脫穎而出，而大模型則展現(xiàn)出卓越的內(nèi)容理解能力。

在研發(fā) PP-ChatOCRv3-doc 同時，沉淀了 7 個實(shí)用的 OCR 基礎(chǔ)模型，方便獨(dú)立使用。具體如下：基于 RT-DETR 的 2 個高精度版面區(qū)域檢測模型和 1 個基于 PicoDet 的高效率版面區(qū)域檢測模型、高精度表格結(jié)構(gòu)識別模型 SLANet_Plus 、文本圖像矯正模型 UVDoc 、公式識別模型 LatexOCR 、基于 PP-LCNet 的文檔圖像方向分類模型。

OCR 領(lǐng)域低代碼全流程開發(fā)

飛槳低代碼開發(fā)工具 PaddleX，依托于 PaddleOCR 的先進(jìn)技術(shù)，支持了 OCR 領(lǐng)域的低代碼全流程開發(fā)能力。通過低代碼全流程開發(fā)，可實(shí)現(xiàn)簡單且高效的模型使用、組合與定制。這將顯著減少模型開發(fā)的時間消耗，降低其開發(fā)難度，大大加快模型在行業(yè)中的應(yīng)用和推廣速度。特色如下：

模型豐富一鍵調(diào)用：將文本圖像智能分析、通用 OCR 、通用版面解析、表格識別、公式識別、印章識別涉及的 17 個模型整合為 6 條模型產(chǎn)線，通過極簡的 Python API 一鍵調(diào)用，快速體驗(yàn)?zāi)Ｐ托Ч?。此外，同一?API ，也支持圖像分類、目標(biāo)檢測、圖像分割、時序預(yù)測等共計(jì) 200+ 模型，形成 20+ 單功能模塊，方便開發(fā)者進(jìn)行模型組合使用。
提高效率降低門檻：提供基于統(tǒng)一命令和圖形界面兩種方式，實(shí)現(xiàn)模型簡潔高效的使用、組合與定制。支持高性能推理、服務(wù)化部署和端側(cè)部署等多種部署方式。此外，對于各種主流硬件如英偉達(dá)GPU、昆侖芯、昇騰、寒武紀(jì)和海光等，進(jìn)行模型開發(fā)時，都可以無縫切換。

下面是 PP-ChatOCRv3-doc 的快速推理程序，5 行代碼實(shí)現(xiàn)經(jīng)典模型和大語言模型的交互。

# 安裝PaddlePaddle和PaddleX，PP-ChatOCRv3-doc的快速推理程序from paddlex import create_pipelinepredict = create_pipeline( pipeline='PP-ChatOCRv3-doc', llm_name='ernie-3.5', llm_params = {'api_type':'qianfan','ak':'','sk':''} )

visual_result, visual_info = pipeline.visual_predict('https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf')

vector = pipeline.build_vector(visual_info=visual_info)chat_result = pipeline.chat(key_list=['乙方', '手機(jī)號'], visual_info=visual_info, vector=vector)

如果您對產(chǎn)線的預(yù)訓(xùn)練模型效果滿意，可以直接對產(chǎn)線進(jìn)行高性能推理/服務(wù)化部署/端側(cè)部署，如果不滿意，您也可以使用產(chǎn)線的二次開發(fā)能力，提升效果。完整的產(chǎn)線開發(fā)流程文檔請參考：

https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html

此外，我們也在星河社區(qū)為開發(fā)者提供了基于云端圖形化界面零代碼的全流程開發(fā)工具，下面是 PP-ChatOCRv3-doc 零代碼模型產(chǎn)線的開發(fā)界面，只需按要求準(zhǔn)備好微調(diào)模型的數(shù)據(jù)，就可以快速進(jìn)行模型迭代和集成部署，詳細(xì)可以參考教程《零門檻開發(fā)產(chǎn)業(yè)級AI模型》中相關(guān)章節(jié)：

https://aistudio.baidu.com/practical/introduce/546656605663301

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。
來源丨飛槳PaddlePaddle

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

炸裂！PDF轉(zhuǎn)Word徹底告別收費(fèi)時代，這款OCR開源神器要逆天！

用Python寫了一個圖像文字識別OCR工具

【強(qiáng)烈推薦】.NET開源的OCR文字識別工具

解鎖PaddleOCR的潛力：Python中如何運(yùn)用文字識別技術(shù)提升工作效率？

PaddleOCR新發(fā)版v2.2：開源版面分析與輕量化表格識別

三年磨一劍——微信OCR輕松提取圖片文字

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

來源丨飛槳PaddlePaddle

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。