視覺/圖像重磅干貨,第一時間送達(dá)!
OCR 方向的工程師,之前一定聽說過 PaddleOCR 這個項(xiàng)目。目前項(xiàng)目累計(jì) Star數(shù)量已超過 43k+ ,安裝包月下載量超過 40w+ 。?本次 PaddleOCR 最新發(fā)版,帶來兩大重磅升級,包括:- 發(fā)布文檔場景信息抽取v3(PP-ChatOCRv3-doc)開源版,大幅提升了文本圖像版面解析能力,充分發(fā)揮文心一言語言理解優(yōu)勢,信息抽取整體效果相比于上一個版本提升 6 %,同時新增 7 個實(shí)用的 OCR 基礎(chǔ)模型。
- 支持 OCR 領(lǐng)域低代碼全流程開發(fā)能力,通過極簡的 Python API 一鍵調(diào)用 17個 OCR 相關(guān)模型,提供基于統(tǒng)一命令和圖形界面兩種方式,實(shí)現(xiàn)模型簡潔高效的使用、組合與定制。支持各種主流硬件如英偉達(dá)GPU、昆侖芯、昇騰和寒武紀(jì)無縫切換。
?PaddleOCR 代碼庫地址,歡迎大家star:https://github.com/PaddlePaddle/PaddleOCR?PP-ChatOCRv3-doc 在線體驗(yàn)地址:https://aistudio.baidu.com/community/app/182491/webUI?PP-ChatOCRv3-doc 的系統(tǒng)流程如下圖所示:首先輸入預(yù)測圖片,送入通用 版面分析 系統(tǒng),經(jīng)過版面分析后,預(yù)測圖像中的文字信息和表格結(jié)構(gòu)。將版面分析系統(tǒng)預(yù)測出的版面類別、文字、表格結(jié)構(gòu)與 Query 之間進(jìn)行向量檢索,得到與 Query 相關(guān)的文本信息,然后送入 Prompt 生成器重新組合成,基于文心大語言模型將海量數(shù)據(jù)和知識的融合,信息抽取準(zhǔn)確率高且應(yīng)用廣泛。其中版面分析系統(tǒng)中集成了圖像矯正(可選)、版面區(qū)域定位、常規(guī)文本檢測、印章文本檢測、文本識別、表格識別等多個功能,可實(shí)現(xiàn) CPU/GPU 上的高精度實(shí)時預(yù)測。通過大小模型的融合策略,各部分得以充分展現(xiàn)其優(yōu)勢:小模型以其高精度的圖像處理能力脫穎而出,而大模型則展現(xiàn)出卓越的內(nèi)容理解能力。在研發(fā) PP-ChatOCRv3-doc 同時,沉淀了 7 個實(shí)用的 OCR 基礎(chǔ)模型,方便獨(dú)立使用。具體如下:基于 RT-DETR 的 2 個高精度版面區(qū)域檢測模型和 1 個基于 PicoDet 的高效率版面區(qū)域檢測模型、高精度表格結(jié)構(gòu)識別模型 SLANet_Plus 、文本圖像矯正模型 UVDoc 、公式識別模型 LatexOCR 、基于 PP-LCNet 的文檔圖像方向分類模型。飛槳低代碼開發(fā)工具 PaddleX,依托于 PaddleOCR 的先進(jìn)技術(shù),支持了 OCR 領(lǐng)域的低代碼全流程開發(fā)能力。通過低代碼全流程開發(fā),可實(shí)現(xiàn)簡單且高效的模型使用、組合與定制。這將顯著減少模型開發(fā)的時間消耗,降低其開發(fā)難度,大大加快模型在行業(yè)中的應(yīng)用和推廣速度。特色如下:- 模型豐富一鍵調(diào)用:將文本圖像智能分析、通用 OCR 、通用版面解析、表格識別、公式識別、印章識別涉及的 17 個模型整合為 6 條模型產(chǎn)線,通過極簡的 Python API 一鍵調(diào)用,快速體驗(yàn)?zāi)P托Ч?。此外,同一?API ,也支持圖像分類、目標(biāo)檢測、圖像分割、時序預(yù)測等共計(jì) 200+ 模型,形成 20+ 單功能模塊,方便開發(fā)者進(jìn)行模型組合使用。
- 提高效率降低門檻:提供基于統(tǒng)一命令和圖形界面兩種方式,實(shí)現(xiàn)模型簡潔高效的使用、組合與定制。支持高性能推理、服務(wù)化部署和端側(cè)部署等多種部署方式。此外,對于各種主流硬件如英偉達(dá)GPU、昆侖芯、昇騰、寒武紀(jì)和海光等,進(jìn)行模型開發(fā)時,都可以無縫切換。
下面是 PP-ChatOCRv3-doc 的快速推理程序,5 行代碼實(shí)現(xiàn)經(jīng)典模型和大語言模型的交互。# 安裝PaddlePaddle和PaddleX,PP-ChatOCRv3-doc的快速推理程序
from paddlex import create_pipeline
predict = create_pipeline( pipeline='PP-ChatOCRv3-doc',
llm_name='ernie-3.5',
llm_params = {'api_type':'qianfan','ak':'','sk':''} )
visual_result, visual_info = pipeline.visual_predict('https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf')
vector = pipeline.build_vector(visual_info=visual_info)
chat_result = pipeline.chat(key_list=['乙方', '手機(jī)號'], visual_info=visual_info, vector=vector)
如果您對產(chǎn)線的預(yù)訓(xùn)練模型效果滿意,可以直接對產(chǎn)線進(jìn)行高性能推理/服務(wù)化部署/端側(cè)部署,如果不滿意,您也可以使用產(chǎn)線的二次開發(fā)能力,提升效果。完整的產(chǎn)線開發(fā)流程文檔請參考:https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html此外,我們也在星河社區(qū)為開發(fā)者提供了基于云端圖形化界面零代碼的全流程開發(fā)工具,下面是 PP-ChatOCRv3-doc 零代碼模型產(chǎn)線的開發(fā)界面,只需按要求準(zhǔn)備好微調(diào)模型的數(shù)據(jù),就可以快速進(jìn)行模型迭代和集成部署,詳細(xì)可以參考教程《零門檻開發(fā)產(chǎn)業(yè)級AI模型》中相關(guān)章節(jié):https://aistudio.baidu.com/practical/introduce/546656605663301本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。