科袖 科袖網(wǎng)小程序
不少機構選擇用PDF格式對外公布信息,避免遭篡改,而這樣做卻給記者和數(shù)據(jù)工作者們帶來了不大不小的麻煩:文字尚且可以復制粘貼,但表格一經(jīng)粘貼就亂了順序,只能新建一張表。
有沒有一些省時省力的工具呢?
有的。下面就由小編給大家推薦一組簡單好用的工具。
整理海量文獻數(shù)據(jù)?有這款 PDF 神器就夠了
Tabula
Tabula 是一款你可以直接下載安裝到電腦上的免費軟件,它可以幫助你導入PDF文件并輸出單份表格。在你導入相應的PDF文件之后,你需要手動將需要的表格框出來,Tabula會試圖在保留行列的前提下轉化數(shù)據(jù)。
當然對于科研黨來說也很實用,比如當老師丟給你一個滿是數(shù)據(jù)表格的PDF,讓你整理成Excel的時候,它就排上用場了。
Tabula的一大好處是允許用戶先上傳一整份PDF文檔,再選擇其中的表格,一次導出單個或多個均可。輸出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等軟件打開。
它除了免費,還有一個優(yōu)點,就是多平臺!
除了 PC 用戶,還支持 Mac,真的是 Mac 黨的福音啊。
Cometdocs
CometDocs是用于從PDF中抓取表格數(shù)據(jù)最簡單有效的工具。用戶可以直接進入網(wǎng)站,上傳文件,選擇輸出文件類型,輸入你的郵件地址,完成。
缺點:不能免費處理圖片,需要訂購OCR服務。
對于普通用戶,Cometdocs可以每周免費轉換五份PDF文檔,超過這個數(shù)量就要收費,價格是每月9.99美元。如果一次性支付130美元則可以終身使用。
Cometdocs的一大特點是支持光學字符識別(Optical Character Recognition, OCR)技術,可以用于經(jīng)掃描生成的PDF文檔。由于其未必百分百準確,所以轉換后仍需仔細檢查一遍。
與Tabula一樣,Cometdocs不能識別橫向放置的表格。
Adobe Export PDF
PDF的這個官方轉換工具需要付費使用,但24美元一年的價格并不算離譜。
你可以在官方閱讀軟件Adobe Reader上使用該轉換工具,轉換后直接用Excel、Word、PowerPoint或RTF打開新文檔。
與Tabula類似,Export PDF可以快速處理大文檔,但也同樣不適用于掃描件或橫向轉置的表格。
Nitro Pro
Nitro Pro適合商業(yè)人士,功能強大但價格不菲,大約需要160美元。其缺點是只能用于Windows操作系統(tǒng),將廣大MacBook用戶排除在外。
Acrobat Pro
同樣是PDF官方出品,Windows和Mac均適用,但每月收費15美元,而且最少要訂購一年。
Zanran
同樣是收費軟件,但可以試用,只要文件小于1.5MB,并提供你的郵箱。轉換后的文件將以電子郵件的形式發(fā)送給你。
Zamzar
同樣是需要用郵箱接收文件的網(wǎng)上軟件,但好處是免費使用。
Cogniview
Cogniview(http://www.cometdocs.com/) 和Tabula類似,你可以將需要的表格框起來,但是如果Congniview猜錯了,你可以很容易地調整它的范圍。更棒的是,它有光學字符識別版本,這樣即便是圖片它也可以識別。
ABLE2EXTRACT
ABLE2EXTRACT(http://www.investintech.com/)是紐約時報圖像部門鐘愛的程序,界面和使用方式和Cogniview都很類似。
缺點:大多數(shù)時候Able2Extract都表現(xiàn)很好,但它的調試系統(tǒng)不如Cogniview。
Datawatch Monarch
Datawatch Monarch是這個系列里的明星軟件,但價格不菲。如果你在做一個長期的項目,并且要從一個很難轉換的形式中獲取數(shù)據(jù),Monarch是非常值得推薦的。Monarch在轉換報告中數(shù)據(jù)的時候非常杰出,用戶可以自主設計輸出表格的形式。
ABBYY FineReader
參考教程:http://www.abbyy.com/finereader/
高達99.8%字符識別精度的專業(yè)的OCR結果,掃描并轉換文件和圖像到各種流行的電子格式,包括:DOCX、ODT、RTF、XSLX、PDF和PDF/A、PPTX、HTML、EPUB和FB2
缺點就是收費,中文官網(wǎng)顯示售價1299人民幣。
來源:科袖網(wǎng)、全球深度報道網(wǎng)