免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
提升RAG系統(tǒng)的回答質(zhì)量:高質(zhì)量文檔解析終極干貨

在上一篇中,我們探討了RAG系統(tǒng)的最大優(yōu)勢,即能夠?qū)⑵髽I(yè)內(nèi)的各種文檔知識快速轉(zhuǎn)換為知識庫,無需對接企業(yè)內(nèi)部系統(tǒng),并能夠基于這些知識庫,借助大模型快速打造AI助理。同時(shí),我們也指出了企業(yè)內(nèi)部文檔種類繁多、形式多樣的現(xiàn)實(shí)問題,并確定文檔解析是RAG系統(tǒng)的最大挑戰(zhàn)之一。在這一篇中,我們將繼續(xù)深入探討,尋找應(yīng)對這一挑戰(zhàn)的最佳文檔解析方案。

為什么RAG系統(tǒng)重點(diǎn)解析PDF?

在RAG系統(tǒng)中,PDF文檔成為重點(diǎn)解析對象的原因與其在企業(yè)中的廣泛應(yīng)用以及其自身的優(yōu)勢密切相關(guān)。

PDF文檔在企業(yè)中的普遍使用

  • 行業(yè)標(biāo)準(zhǔn)格式:PDF(可移植文檔格式)是各行業(yè)用來分發(fā)和保存數(shù)字文檔的標(biāo)準(zhǔn)格式,廣泛應(yīng)用于金融、法律、醫(yī)療和教育等領(lǐng)域。PDF文件的版式固定,能夠在不同設(shè)備和系統(tǒng)中一致呈現(xiàn),無論是在PC、手機(jī)還是打印輸出,內(nèi)容都保持不變。

  • 法律與合規(guī)需求:許多企業(yè)的文檔(如合同、發(fā)票、審計(jì)報(bào)告)需要遵守法律法規(guī)要求,PDF由于其安全性和不可更改性,成為正式文件的首選。

  • 高保真呈現(xiàn):PDF支持嵌入圖像、表格、圖表等多種格式,使其成為技術(shù)文檔、研究報(bào)告和多媒體信息匯總的理想格式。這使得企業(yè)能夠在單一文件中傳遞豐富的信息。

PDF的技術(shù)優(yōu)勢

  • 跨平臺(tái)兼容:PDF文件可以在不同操作系統(tǒng)(如Windows、Mac、Linux)上無縫打開,且顯示效果一致。企業(yè)需要跨平臺(tái)的文檔格式來確保文件的可讀性和格式一致性。

  • 安全性:PDF支持多種安全功能,包括加密、數(shù)字簽名和權(quán)限設(shè)置,允許企業(yè)在共享文檔時(shí)確保數(shù)據(jù)的機(jī)密性和完整性。這在RAG系統(tǒng)中尤為重要,因?yàn)榻馕龅膬?nèi)容可能涉及敏感的企業(yè)數(shù)據(jù)。

  • 復(fù)雜結(jié)構(gòu)支持:PDF不僅支持文本,還可以嵌入圖像、矢量圖形、超鏈接、注釋等,這使得企業(yè)可以使用它來存儲(chǔ)各種信息類型。RAG系統(tǒng)需要處理包含復(fù)雜結(jié)構(gòu)的文件,而PDF的格式剛好滿足這些需求。

  • 易于存檔和傳輸:PDF文件通常較小且自帶壓縮機(jī)制,便于在企業(yè)中存檔、傳輸和共享。大多數(shù)企業(yè)將PDF用作文件的最終存儲(chǔ)形式,特別是在合同、發(fā)票、報(bào)告等場景中。

RAG系統(tǒng)選擇的依據(jù)

  • 豐富的數(shù)據(jù)來源:企業(yè)的許多核心信息往往以PDF的形式存在,如產(chǎn)品手冊、技術(shù)白皮書、財(cái)務(wù)報(bào)告等。RAG系統(tǒng)需要從這些文件中提取知識,因此PDF是解析的重要對象。

  • 結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息并存:PDF既可以包含結(jié)構(gòu)化的表格、圖表,又可以容納大段的非結(jié)構(gòu)化文本信息。RAG系統(tǒng)在解析時(shí)能夠從多種信息源中提取不同類型的數(shù)據(jù),提升檢索與生成效果。

  • 信息的長期保存:由于PDF格式的穩(wěn)定性和長期兼容性,企業(yè)的歷史文檔經(jīng)常存儲(chǔ)為PDF,RAG系統(tǒng)需要對這些歷史文件進(jìn)行解析,幫助企業(yè)從過往數(shù)據(jù)中提取信息。

因此,PDF文檔的穩(wěn)定性、通用性和安全性使其成為企業(yè)和RAG系統(tǒng)解析的重點(diǎn)對象,特別是在需要處理復(fù)雜文檔結(jié)構(gòu)和高保真呈現(xiàn)的場景下。

以下是pdf文件結(jié)構(gòu)的示例:

4 0 obj                 % 頁面內(nèi)容流<< >>stream                  % 流的開始1. 0. 0. 1. 50. 700. cm % 位置在(50,700)BT                      % 開始文本塊  /F0 36. Tf             % 在36pt選擇/F0字體 (Hello, World!) Tj     % 放置文本字符串ET                      % 結(jié)束文本塊endstream               % 流結(jié)束endobj
PDF解析

目前,Python 生態(tài)系統(tǒng)中有許多開源的 PDF 解析工具,通??梢苑譃閮深悾?/p>

  1. 基于規(guī)則的解析工具

  • 優(yōu)勢:適用性廣泛,速度較快。

  • 劣勢:識別效果一般,能夠處理的版面元素有限,識別精度較低。

  • 基于模型的解析工具

    • 優(yōu)勢:能夠識別更多的版面元素,有助于更準(zhǔn)確的后續(xù)切片處理。

    • 劣勢:在 CPU 上的部署速度較慢,通常依賴 GPU 資源,主要適用于企業(yè)內(nèi)部場景。識別過程依賴于模型的質(zhì)量,若需提高識別率,則需要進(jìn)行全面的計(jì)算機(jī)視覺模型訓(xùn)練或微調(diào)(例如,針對特定行業(yè)的 PDF 知識進(jìn)行訓(xùn)練集標(biāo)注和訓(xùn)練),因此 RAG 產(chǎn)品的成本會(huì)相對較高。

    總結(jié)兩種模式的適用場景,基于規(guī)則的解析方式更適合提供外部服務(wù)的平臺(tái),例如阿里云的文檔內(nèi)容解析API,主要依賴于固定規(guī)則;而基于模型的解析方式則更適合用于企業(yè)內(nèi)部的RAG產(chǎn)品,通過提供定制化的訓(xùn)練集、模型標(biāo)注和訓(xùn)練,可以顯著提升解析效果。雖然基于模型的方案效果更好,但也意味著更高的成本,尤其是在行業(yè)適配和垂直領(lǐng)域優(yōu)化方面。
    開源工具
    以下是整理自網(wǎng)絡(luò)的開源工具列表。由于該列表在網(wǎng)絡(luò)中以圖片格式呈現(xiàn),因此我們利用模型來識別表格效果。我們使用了表格標(biāo)注工具,識別后會(huì)自動(dòng)生成 Excel 文檔,以展示其處理結(jié)果。

    圖(1)識別第一張表格內(nèi)容

    圖(2)識別第一張Excel內(nèi)容

    圖(3)識別第二張表格內(nèi)容

    圖(4)識別第二張Excel內(nèi)容
    根據(jù)識別出來的兩張表格的內(nèi)容,我整理出的開源工具列表如下:
    工具名特點(diǎn)優(yōu)點(diǎn)缺點(diǎn)
    PDFMiner專為提取PDF文本內(nèi) 容而設(shè)計(jì),提供底層 PDF解析功能,支持 提取文本、圖像和其 他信息強(qiáng)大的解析能力,支 持復(fù)雜PDF結(jié)構(gòu), 可定制能力強(qiáng)API使用相對復(fù)雜, 性能可能不如其他工具
    PyPDF輕量級PDF處理 庫,支持基本的讀 取、寫入、合并、拆 分、加密等功能適用于簡單的PDF處 理任務(wù);易于上手功能相對有限,不擅 長復(fù)雜的文本提取和 布局分析
    PyMuPDF (fitz)提供對PDF、XPS、 EPUB和其他文檔格 式的快速渲染和操作性能優(yōu)異,功能全 面,API文檔詳細(xì)底層為C語言實(shí)現(xiàn), 不易定制
    PDFPlumber基于PDFMiner,主 要用于提取文本和表 格,易于使用實(shí)現(xiàn)了對表格數(shù)據(jù)的 提取半框表格效果差
    Camelot通過視覺方法從PDF 中提取表格數(shù)據(jù)表格提取效果較好主要聚焦于表格數(shù)據(jù) 提取,非表格內(nèi)容處 理能力有限
    Papermage基于PDFPlumber, 通過深度模型進(jìn)行版 面分析提供圖像化支持,支 持多種版面元素僅適用于論文場景
    開源模型如下:
    模型名稱模型簡介
    ch_PP-OCRv4_server_det【最新】原始高精度模型,支持中英文、多語種文本檢測
    ch_PP-OCRv4_server_rec【最新】高精度模型,支持中英文、數(shù)字識別
    ch_ppstructure_mobile_v2.0_SLANet基于SLANet的中文表格識別模型
    picodet_lcnet_x1_0_fgd_layout_cdlaCDLA數(shù)據(jù)集訓(xùn)練的中文版面分析模型,可以劃分為表格、圖片、圖片標(biāo)題、表格、表格標(biāo)題、頁眉、頁腳、引用、公式10類區(qū)域
    PDF解析流程

    在模型識別過程中,PDF解析器起到重要作用。通過解析器獲得的結(jié)果與模型識別的輸出進(jìn)行X、Y軸的坐標(biāo)比對,最終生成準(zhǔn)確的識別數(shù)據(jù)。接下來,系統(tǒng)根據(jù)多種切分規(guī)則對數(shù)據(jù)進(jìn)行合理的分割,形成最優(yōu)的Chunk,再將其向量化存儲(chǔ)。這一過程顯著提升了搜索召回率,使系統(tǒng)能夠精準(zhǔn)匹配問題與知識,將最相關(guān)的信息提供給大模型,最終生成合理且有針對性的答案。

    PDF解析核心問題

    版面識別

    在RAG產(chǎn)品中,表格識別模型和版面識別模型通常預(yù)裝的是通用識別模型。這些模型在初期訓(xùn)練時(shí)并未專門針對某一行業(yè)的文檔進(jìn)行大規(guī)模優(yōu)化,而是基于普遍存在的表格和版面樣式進(jìn)行訓(xùn)練。因此,對于大多數(shù)普通的PDF文檔,這類通用模型的識別效果較好。然而,一旦遇到行業(yè)特定的文檔類型,識別效果往往大打折扣,難以達(dá)到精準(zhǔn)要求。

    下面看一個(gè)較通用的文檔識別效果(模型訓(xùn)練數(shù)據(jù)集是論文類):

    識別效果還不錯(cuò),如果用這個(gè)版面模型去識別財(cái)務(wù)、證券、文學(xué)作品、醫(yī)療健康、教育出版、法律等行業(yè)的文檔,那效果可能就很慘不忍睹了,我們來看一個(gè)證券類的識別效果。

    這次的識別效果真是慘不忍睹。頁眉、頁腳完全沒有識別到,許多標(biāo)題也被漏掉,表格的識別更是錯(cuò)漏百出,這樣的結(jié)果顯然無法接受。要想徹底改變識別效果,唯一的出路就是針對證券類文檔進(jìn)行專門的模型微調(diào)訓(xùn)練。訓(xùn)練集至少需要2000張,經(jīng)過一系列的圖片標(biāo)注、模型訓(xùn)練等步驟,最終完成模型的微調(diào)。

    擼起袖子加油干,就能看到顯著改善!

    下面是微調(diào)后模型的識別效果:

    這個(gè)效果是不是相當(dāng)出色!所有版面都被完整識別出來,且每個(gè)識別結(jié)果的可信度都在0.9以上,堪稱高標(biāo)準(zhǔn)的表現(xiàn)。微調(diào)前后的識別差距如此明顯,充分證明了針對行業(yè)進(jìn)行模型微調(diào)的必要性。這不僅顯著提升了行業(yè)PDF文檔的識別效果,也是提高識別精度和可靠性的最佳方法。

    有線格表與無線格表版面識別

    剛才的測試圖片中,帶有線框的表格識別效果相對不錯(cuò),但實(shí)際上,各行各業(yè)中大量存在無線框的表格。通用的識別模型通常無法處理這類表格,即使經(jīng)過有線框表格數(shù)據(jù)微調(diào),識別無線框表格的結(jié)果依然不理想。要準(zhǔn)確識別這類復(fù)雜的表格結(jié)構(gòu),必須針對行業(yè)特定的無線框表格樣本進(jìn)行定向微調(diào),才能實(shí)現(xiàn)理想的識別效果。

    下面是有線格訓(xùn)練集微調(diào)的證券類模型識別無線格表格的識別效果:

    效果可謂差強(qiáng)人意,完全無法正確識別無框表格,整篇文檔被簡單地識別為普通文本。該怎么辦呢?別無他法,只能擼起袖子自己動(dòng)手!通過圖片標(biāo)注與模型訓(xùn)練,才能有效提升識別效果,再來看看新訓(xùn)練的模型是否能有所改善。

    版面都識別到了,識別效果還是杠桿的,對得起標(biāo)注付出的辛苦。

    表格結(jié)構(gòu)與內(nèi)容識別

    PDF文檔中的表格數(shù)據(jù)往往包含重要的知識信息,許多問題會(huì)專門針對表格內(nèi)容。如果在文檔解析過程中表格識別出現(xiàn)錯(cuò)誤,即使是再強(qiáng)大的大模型也無法給出正確答案。因此,準(zhǔn)確識別表格的結(jié)構(gòu)和內(nèi)容至關(guān)重要。表格識別的過程通常采用雙重策略:結(jié)合PDF解析技術(shù)和專門的模型識別技術(shù),以確保表格信息能夠被高效、準(zhǔn)確地提取和利用。

    英文表格:

    英文表格的識別:

    經(jīng)過大量英文訓(xùn)練集訓(xùn)練的通用表格識別效果還是不錯(cuò)的,但是這樣的模型識別中文行業(yè)表格那效果還是要差很多。

    英文通用表格識別模型識別中文行業(yè)表格:

    這個(gè)效果也是慘不忍睹啊,還是那套理論,自己標(biāo)注自己練,奇跡一定會(huì)出現(xiàn)。

    微調(diào)模型識別中文無線格的表格效果:

    這個(gè)效果還是很明顯的,基本把表的結(jié)構(gòu)還原出來了。

    模型技術(shù)淺析

    模型架構(gòu)

    PDF文檔識別使用的模型技術(shù)主要是計(jì)算機(jī)視覺中的OCR技術(shù)、檢測(版面結(jié)構(gòu)識別、表格結(jié)構(gòu)識別),在開源模型中PP-OCR系列模型PP-Structure 系列模型是最常用的。

    PP-Structure

    PP-Structure是PaddleOCR團(tuán)隊(duì)自研的智能文檔分析系統(tǒng),旨在幫助開發(fā)者更好地完成版面分析、表格識別等文檔理解相關(guān)任務(wù)。

    PP-StructureV2的主要特性如下:

    • 支持對圖片/pdf形式的文檔進(jìn)行版面分析,可以劃分文字、標(biāo)題、表格、圖片、公式等區(qū)域;

    • 支持通用的中英文表格檢測任務(wù);

    • 支持表格區(qū)域進(jìn)行結(jié)構(gòu)化識別,最終結(jié)果輸出Excel文件;

    • 支持基于多模態(tài)的關(guān)鍵信息抽取(Key Information Extraction,KIE)任務(wù)-語義實(shí)體識別(Semantic Entity Recognition,SER)和關(guān)系抽取(Relation Extraction,RE);

    • 支持版面復(fù)原,即恢復(fù)為與原始圖像布局一致的word或者pdf格式的文件;

    • 支持自定義訓(xùn)練及python whl包調(diào)用等多種推理部署方式,簡單易用;

    • 與半自動(dòng)數(shù)據(jù)標(biāo)注工具PPOCRLabel打通,支持版面分析、表格識別、SER三種任務(wù)的標(biāo)注。

    PP-OCR?

    PP-OCR是一個(gè)兩階段的OCR系統(tǒng),其中文本檢測算法選用DB,文本識別算法選用CRNN,并在檢測和識別模塊之間添加文本方向分類器,以應(yīng)對不同方向的文本識別。

    模型關(guān)鍵指標(biāo)

    模型的兩個(gè)關(guān)鍵指標(biāo)在文檔內(nèi)容結(jié)構(gòu)識別中至關(guān)重要:精度和預(yù)測耗時(shí)。由于我們的 RAG 產(chǎn)品是在企業(yè)內(nèi)部進(jìn)行私有化部署,因此對模型的精度要求非常高,而對預(yù)測耗時(shí)的容忍度相對較大。畢竟,在企業(yè)應(yīng)用中,解析的首要要求是精確度。

    模型名稱模型簡介精度

    預(yù)測耗時(shí)

    (ms)

    ch_PP-OCRv4_server_det【最新】原始高精度模型,支持中英文、多語種文本檢測85124
    ch_PP-OCRv4_server_rec【最新】高精度模型,支持中英文、數(shù)字識別80.197
    ch_ppstructure_mobile_v2.0_SLANet基于SLANet的中文表格識別模型95.89766
    picodet_lcnet_x1_0_fgd_layout_cdlaCDLA數(shù)據(jù)集訓(xùn)練的中文版面分析模型,可以劃分為表格、圖片、圖片標(biāo)題、表格、表格標(biāo)題、頁眉、頁腳、引用、公式10類區(qū)域94.241.2

    RAG文檔解析暢想

    RAG備受關(guān)注的關(guān)鍵原因在于它能夠?qū)⑽臋n轉(zhuǎn)化為知識庫,賦能企業(yè)快速構(gòu)建AI助手。要提供優(yōu)質(zhì)的RAG產(chǎn)品,文檔解析是必不可少的環(huán)節(jié),尤其需要針對行業(yè)特性進(jìn)行解析模型的微調(diào),確保各類文檔能夠高效、高質(zhì)量地入庫。不過,RAG知識庫的創(chuàng)建并不僅依賴于文檔解析,也可以通過對接企業(yè)的結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)。但這種方式通常開發(fā)成本較高,需要定制開發(fā)。因此,利用模型進(jìn)行高質(zhì)量文檔解析仍有非常廣闊的前景。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
炸裂!PDF轉(zhuǎn)Word徹底告別收費(fèi)時(shí)代,這款OCR開源神器要逆天!
在 NVIDIA NGC 上體驗(yàn)一鍵 PDF 轉(zhuǎn) Word
PaddleOCR 2.9 發(fā)布, 正式開源文本圖像智能分析利器
文檔智能之大規(guī)模訓(xùn)練數(shù)據(jù)生成方法:PublayNet、TableBank、TableGenerati...
Nougat來了,能否成為PDF格式轉(zhuǎn)換的新神器?
CV之PDF-Extract-Kit:PDF-Extract-Kit(布局檢測→公式檢測+公式識別→表格識別→光學(xué)字符識別)的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服