免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
CV之PDF-Extract-Kit:PDF-Extract-Kit(布局檢測→公式檢測+公式識別→表格識別→光學(xué)字符識別)的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

CV之PDF-Extract-Kit:PDF-Extract-Kit(布局檢測→公式檢測+公式識別→表格識別→光學(xué)字符識別)的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略


PDF-Extract-Kit的簡介

PDF文檔中包含大量知識信息,然而提取高質(zhì)量的PDF內(nèi)容并非易事。為此,我們將PDF內(nèi)容提取工作進(jìn)行拆解:

  • 布局檢測:使用LayoutLMv3模型進(jìn)行區(qū)域檢測,如圖像表格,標(biāo)題,文本等;
  • 公式檢測:使用YOLOv8進(jìn)行公式檢測,包含行內(nèi)公式行間公式
  • 公式識別:使用UniMERNet進(jìn)行公式識別;
  • 表格識別:使用StructEqTable進(jìn)行表格識別;
  • 光學(xué)字符識別:使用PaddleOCR進(jìn)行文本識別;

注意: 由于文檔類型的多樣性,現(xiàn)有開源的布局檢測和公式檢測很難處理多樣性的PDF文檔,為此我們內(nèi)容采集多樣性數(shù)據(jù)進(jìn)行標(biāo)注和訓(xùn)練,使得在各類文檔上取得精準(zhǔn)的檢測效果,細(xì)節(jié)參考布局檢測和公式檢測部分。對于公式識別,UniMERNet方法可以媲美商業(yè)軟件,在各種類型公式識別上均勻很高的質(zhì)量。對于OCR,我們采用PaddleOCR,對中英文OCR效果不錯。

GitHub地址https://github.com/opendatalab/PDF-Extract-Kit

1、更新和后續(xù)

更新

2024.08.01 新增了StructEqTable表格識別模塊用于表格內(nèi)容提取,歡迎使用!

2024.07.01 我們發(fā)布了PDF-Extract-Kit,一個用于高質(zhì)量PDF內(nèi)容提取的綜合工具包,包括布局檢測、公式檢測、公式識別和OCR。

category_id包含的類型如下

{0: 'title',              # 標(biāo)題
 1: 'plain text',         # 文本
 2: 'abandon',            # 包括頁眉頁腳頁碼和頁面注釋
 3: 'figure',             # 圖片
 4: 'figure_caption',     # 圖片描述
 5: 'table',              # 表格
 6: 'table_caption',      # 表格描述
 7: 'table_footnote',     # 表格注釋
 8: 'isolate_formula',    # 行間公式(這個是layout的行間公式,優(yōu)先級低于14)
 9: 'formula_caption',    # 行間公式的標(biāo)號

 13: 'inline_formula',    # 行內(nèi)公式
 14: 'isolated_formula',  # 行間公式
 15: 'ocr_text'}              # ocr識別結(jié)果

待辦事項(xiàng)

  • ?表格解析:開發(fā)能夠?qū)⒈砀駡D像轉(zhuǎn)換成對應(yīng)的LaTeX/Markdown格式源碼的功能。
  • ?化學(xué)方程式檢測:實(shí)現(xiàn)對化學(xué)方程式的自動檢測。
  • ?化學(xué)方程式/圖解識別:開發(fā)識別并解析化學(xué)方程式的模型。
  • ?閱讀順序排序模型:構(gòu)建模型以確定文檔中文本的正確閱讀順序。

PDF-Extract-Kit?旨在提供高質(zhì)量PDF文件的提取能力。我們鼓勵社區(qū)提出具體且有價值的需求,并歡迎大家共同參與,以不斷改進(jìn)PDF-Extract-Kit工具,推動科研及產(chǎn)業(yè)發(fā)展。

2、PDF內(nèi)容提取框架如下圖所示

3、效果展示

結(jié)合多樣性PDF文檔標(biāo)注,我們訓(xùn)練了魯棒的布局檢測和公式檢測模型。在論文、教材、研報、財報等多樣性的PDF文檔上,我們的pipeline都能得到準(zhǔn)確的提取結(jié)果,對于掃描模糊、水印等情況也有較高魯棒性。

4、評測指標(biāo)

現(xiàn)有開源模型多基于Arxiv論文類型數(shù)據(jù)進(jìn)行訓(xùn)練,面對多樣性的PDF文檔,提取質(zhì)量遠(yuǎn)不能達(dá)到實(shí)用需求。相比之下,我們的模型經(jīng)過多樣化數(shù)據(jù)訓(xùn)練,可以適應(yīng)各種類型文檔提取。

布局檢測

我們與現(xiàn)有的開源Layout檢測模型做了對比,包括DocXchain、Surya、360LayoutAnalysis的兩個模型。而LayoutLMv3-SFT指的是我們在LayoutLMv3-base-chinese預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進(jìn)一步做了SFT訓(xùn)練后的模型。論文驗(yàn)證集由402張論文頁面構(gòu)成,教材驗(yàn)證集由587張不同來源的教材頁面構(gòu)成。

模型論文驗(yàn)證集教材驗(yàn)證集
mAPAP50AR50mAPAP50AR50
DocXchain52.869.577.334.950.163.5
Surya24.239.466.113.923.349.9
360LayoutAnalysis-Paper37.753.659.820.731.343.6
360LayoutAnalysis-Report35.146.955.925.433.745.1
LayoutLMv3-SFT77.693.395.567.982.787.9

公式檢測

我們與開源的模型Pix2Text-MFD做了對比。另外,YOLOv8-Trained是我們在YOLOv8l模型的基礎(chǔ)上訓(xùn)練后的權(quán)重。論文驗(yàn)證集由255張論文頁面構(gòu)成,多源驗(yàn)證集由789張不同來源的頁面構(gòu)成,包括教材、書籍等。

模型論文驗(yàn)證集多源驗(yàn)證集
AP50AR50AP50AR50
Pix2Text-MFD60.164.658.962.8
YOLOv8-Trained87.789.982.487.3

公式識別

公式識別我們使用的是UniMERNet的權(quán)重,沒有進(jìn)一步的SFT訓(xùn)練,其精度驗(yàn)證結(jié)果可以在其GitHub頁面獲取。

表格識別

表格識別我們使用的是StructEqTable的權(quán)重,用于將表格轉(zhuǎn)換為LaTeX。相比于PP-StructureV2的表格識別,StructEqTable的識別能力更強(qiáng),針對復(fù)雜表格也能夠有不錯的效果,但目前可能主要適用于學(xué)術(shù)論文中的數(shù)據(jù),速度也有較大的提升空間,我們?nèi)栽诓粩嗟鷥?yōu)化中。在一周內(nèi)我們會將表格識別的功能同步更新到MinerU中。

PDF-Extract-Kit的安裝和使用方法

1、環(huán)境安裝 (Linux)

conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install https://github.com/opendatalab/PDF-Extract-Kit/raw/main/assets/whl/detectron2-0.6-cp310-cp310-linux_x86_64.whl

安裝完環(huán)境后,可能還會遇到torch無法調(diào)用的錯誤,可以先把下面的庫卸載,然后重新安裝cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

2、下載模型權(quán)重

參考模型下載下載所需模型權(quán)重

下載地址https://github.com/opendatalab/PDF-Extract-Kit/blob/main/models/README.md

安裝 Git LFS

在開始之前,請確保您的系統(tǒng)上已經(jīng)安裝了 Git 大文件存儲(Git LFS)。使用以下命令進(jìn)行安裝:

git lfs install

T1、從 Hugging Face 下載模型

要從 Hugging Face 下載 PDF-Extract-Kit 模型,請使用以下命令:

git lfs clone https://huggingface.co/opendatalab/PDF-Extract-Kit

確保在克隆過程中啟用了 Git LFS 以便正確下載所有大文件。

T2、從 ModelScope 下載模型

T2.1、SDK 下載

首先,使用 pip 安裝 ModelScope 庫:

pip install modelscope

使用以下 Python 代碼通過 ModelScope SDK 下載模型:

from modelscope import snapshot_download

model_dir = snapshot_download('opendatalab/PDF-Extract-Kit')
T2.2、Git 下載

或者,您也可以使用 Git 從 ModelScope 克隆模型倉庫:

git clone https://www.modelscope.cn/opendatalab/PDF-Extract-Kit.git

將模型文件放置如下結(jié)構(gòu)中:

./
├── Layout
│   ├── config.json
│   └── model_final.pth
├── MFD
│   └── weights.pt
├── MFR
│   └── UniMERNet
│       ├── config.json
│       ├── preprocessor_config.json
│       ├── pytorch_model.bin
│       ├── README.md
│       ├── tokenizer_config.json
│       └── tokenizer.json
├── TabRec
│   └── StructEqTable
│       ├── config.json
│       ├──generation_config.json
│       ├──model.safetensors
│       ├──preprocessor_config.json
│       ├──special_tokens_map.json
│       ├──spiece.model
│       ├──tokenizer_config.json
│       └──tokenizer.json
└── README.md

3、在Windows上運(yùn)行

如需要在Windows上運(yùn)行本項(xiàng)目,請參考在Windows環(huán)境下使用PDF-Extract-Kit。

4、在macOS上運(yùn)行

如需要在macOS上運(yùn)行本項(xiàng)目,請參考在macOS系統(tǒng)使用PDF-Extract-Kit。

5、運(yùn)行提取腳本

python pdf_extract.py --pdf assets/examples/example.pdf

相關(guān)參數(shù)解釋:

  • --pdf?待處理的pdf文件,如果傳入一個文件夾,則會處理文件夾下的所有pdf文件。
  • --output?處理結(jié)果保存的路徑,默認(rèn)是"output"
  • --vis?是否對結(jié)果可視化,是則會把檢測的結(jié)果可視化出來,主要是檢測框和類別
  • --render?是否把識別得的結(jié)果渲染出來,包括公式的latex代碼,以及普通文本,都會渲染出來放在檢測框中。注意:此過程非常耗時,另外也需要提前安裝xelateximagemagic。

本項(xiàng)目專注使用模型對多樣性文檔進(jìn)行高質(zhì)量內(nèi)容提取,不涉及提取后內(nèi)容拼接成新文檔,如PDF轉(zhuǎn)Markdown。如果有此類需求,請參考我們另一個Github項(xiàng)目:?MinerU

PDF-Extract-Kit的案例應(yīng)用

持續(xù)更新中……

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
高質(zhì)量PDF內(nèi)容提取工具PDF-Extract-Kit
PDF文檔數(shù)據(jù)難處理?有這幾款神器就夠了
【第387期】模型識別——等差數(shù)列求和公式性質(zhì)的應(yīng)用
【插件使用經(jīng)驗(yàn)分享】實(shí)現(xiàn)pdf公式無痛latex(全免費(fèi)且好用)All in one × mymarkdown 識別率媲美m(xù)athpix!支持同時識別公式+文字ps:增加手寫公式latex方法
華為云首款端云協(xié)同AI硬件上市,讓你“零基礎(chǔ)”獲取AI能力
git之you can‘t overwrite the remote branch問題解決
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服