PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/ How to ...

文章推薦指數: 80 %
投票人數:10人

但問題是,它複製出來的文字實際上都是亂碼。

image. 就算Acrobat Pro DC有提供OCR工具,但因為該文件本身已經有經過OCR處理,包含了可渲染的文字 ... ::: HOME SITEMAP ABOUT MENU HOME回到首頁 SITEMAP網站地圖 ABOUT關於布丁 PUBLICATIONS發表 WORKS作品 ARCHIVES文章列表 LABELS標籤 DONATE捐款 SUBSCRIBE訂閱 CONTACT聯絡布丁 HELP ::: PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/HowtoperformOCRPDFwithRenderableTextError 3月30,2018 OS/Windows , Software/PDF , Software/Windows , Windows/電腦軟體 2Comments Edit Copy Download 雖然PDF檔案是標準格式,但是隨著PDF檔案產生的方法不同、文字辨識OCR工具帶來的字型與編碼問題,很多早期的PDF檔案雖然可以選取、複製文件上的文字,但複製出來的文字卻會是亂碼。

我參考了GrantRobertson的建議,將PDF輸出到XPS印表機,再將XPS輸出成PDF,這樣就可以在PDF上進行OCR辨識,最後就能得到正確辨識的檔案了。

以下我就來整理這一套做法,供大家參考參考。

OCR文字錯誤的檔案/PDFwithRenderableTextError1.RenderableTextError.pdf這是「Doestestdelayeliminatecollaborativeinhibition?」論文中的一頁。

這個PDF檔案雖然有經過OCR,可以直接選取、複製。

但問題是,它複製出來的文字實際上都是亂碼。

就算AcrobatProDC有提供OCR工具,但因為該文件本身已經有經過OCR處理,包含了可渲染的文字(renderabletext),因此不能再次進行OCR。

Acrobat官網的建議是把PDF輸出成tiff圖片,再將圖片建立成PDF,然後再重新OCR。

但這種做法會造成文字解析度變差,原本清晰的向量文字變成了點陣文字,看起來就不太舒服。

最後我找到的是GrantRobertson使用XPS印表機做法,讓我們來看看怎麼做吧。

XPS印表機/XPSPrinterXPS(XMLPaperSpecification)是微軟開發的文件檔案格式,類似於Acrobat的PDF,不過不能像PDF這樣修改檔案的內容。

製作XPS檔案的方式是利用MicrosoftXPSDocumentWriter這個虛擬印表機來列印檔案,就可以將任何可列印的檔案製作成XPS格式的檔案。

在WindowsVista之後的作業系統都有預設安裝這個印表機,不過如果是Vista之前,或是不小心砍掉了這個印表機的話,可以參考[Windows]安裝MicrosoftXPSDocumentWriter印表機這篇來重新安裝。

待會我們的操作就會用到這個XPS印表機,讓我們開始吧!Step1.將PDF列印成XPS檔案/PrintaPDFintoXPSformatfile雖然用任何可以開啟PDF的檔案來進行列印即可,不過這邊我使用的是AcrobatProDC的列印對話視窗。

在這個對話視窗中,我們主要進行兩個設定:Printer:MicrosoftXPSDocumentWriter:這樣就可以輸出XPS檔案。

[v]ChoosepapersourcebyPDFpagesize:這樣輸出的頁面尺寸就會配合原本的PDF檔案大小。

按下Print之後,XPS印表機就會要你選擇路徑跟檔案名稱來保存XPS檔案。

這樣我們就產生了副檔名為.xps的XPS檔案了。

Step2.用AcrobatProDC開啟XPS檔案雖然XPS預設是用XPS檢視器開啟,但這邊我們選擇使用AcrobatProDC開啟它,這樣可以節省轉換為PDF的步驟。

在開啟XPS檔案的時候,AcrobatProDC就已經默默地將它轉換成PDF檔案了。

從XPS檔案轉換過來的PDF檔案已經失去了可渲染的文字,因此我們不能直接選取,還需要進行文字辨識OCR才行。

讓我們繼續進行下一步。

Step3.文字辨識/OCR接下來就可以用我們熟悉的OCR工具來為PDF進行文字辨識。

AcrobatProDC的文字辨識放在「Tools>EnhanceScans」中,選擇「RecognizeText」,然後設定想要辨識的語言,再按下「RecognizeText」,這次PDF就能夠正常進行OCR處理。

經過OCR之後的PDF檔案就能選取與複製。

複製之後的文字也相當正常囉。

把經過OCR處理的PDF檔案儲存起來,整個流程就完成了。

檔案大小的問題/Aissueaboutthefilesize乍看之下這樣的做法可以解決OCR文字錯誤的問題,但背後卻隱藏著另一個問題:檔案大小急劇增加。

讓我們來看看每階段操作產生的檔案大小變化:1.RenderableTextError.pdf(31KB):這是原始包含OCR錯誤文字的檔案,一頁只有31KB。

2.PrintPDFtoXPS.xps(74KB):轉換成XPS之後,檔案大小增加超過兩倍。

3.PrintXPStoPDF.pdf(362KB):從XPS轉換成PDF,檔案大小增加了5倍。

4.OCRText.pdf(480KB):再進行OCR的處理,檔案大小又增加了1.3倍。

跟原始檔案相比,轉換到最後的檔案足足增大了15倍之多!大部分論文的頁數不多,就算經過這樣處理,檔案大小也頂多不會超過10MB。

但若是很多頁的厚重報告,轉換之後的檔案尺寸可能會相當驚人,大家在用這方法之間可能要三思。

GrantRobertson也在文中討論了這個問題,他建議的是使用ClearScan,也就是Output的「SearchableImage」。

這樣可以讓檔案變得非常小,並且保留可選取文字的功能。

但是這樣會讓文字從向量轉換成黑白的點陣圖,使得文字看起來不再清晰。

如果不是很介意檔案大小的話,我寧願讓檔案大一點、並且維持清晰的文字,看起來比較舒服。

小結/Inclosing其實PDF中OCR文字辨識錯誤的問題困擾了我很久,今天總算是花點時間來找找方案,最後才發現原來還有XPS這招可以用,真是感謝GrantRobertson的說明。

希望這個方法對你也有幫助!這篇修正PDF中OCR文字錯誤的教學就到這邊囉。

你也有遇到這種PDF檔案嗎?你都是怎麼處理的呢?如果你有什麼建議的話,歡迎在下面留言提出指教。

如果你覺得這篇介紹有幫到你的話,請幫我在AddThis分享工具按讚、將這篇分享到Facebook等社群媒體吧!感謝你的耐心閱讀,讓我們下一篇見。

布丁布丁吃布丁 PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/HowtoperformOCRPDFwithRenderableTextError 是由 布丁布丁吃布丁 製作,以創用CC姓名標示-非商業性-相同方式分享3.0台灣授權條款釋出。

這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。

L P 關於布丁 訂閱BLOG 贊助 RelatedPosts 總共2則留言 ( 我要發問 , 隱藏留言 顯示留言 ) 布丁布丁吃布丁2018年3月31日凌晨1:19今晚用這招用一用就遇到例外狀況了。

有時候PDF列印成XPS檔案的時候,不知為何它還是保留了可渲染的文字這時候再將它列印成XPS檔案,然後再用Acrobat開啟,這時候就會移除可渲染文字了總之多轉存XPS幾次,這樣子就可以順利移除掉可渲染文字,重新OCR吧。

回覆刪除回覆回覆布丁布丁吃布丁2018年7月26日晚上7:49今天又用了一次,感激感覺回覆刪除回覆回覆新增留言載入更多… CommentTools: Chooseone... UploadImage(imgur) UploadVideo(Streamable) UploadTemporaryFile(Upload.express) CodeFormatter(forHTMLorXMLcode) CommentsFeed(JSONformat) CommentsFeed(XMLformat) 較新的文章 首頁 較舊的文章 訂閱: 張貼留言(Atom) ::: AboutMe 布丁布丁吃布丁 這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。

FacebookFanpage NowLoading... RandomPosts Guestbook RecentPosts Comments ::: 聯絡布丁 信箱:[email protected] 提問: 留言板 聯絡時間:週一~週日24小時 BuyMeACoffee(Donate) 如果有幫到您的話,請布丁喝杯咖啡吧! 進入贊助捐款網頁 Labels (AllLabels) 日記 (235) 輔大圖資 (166) 電腦軟體 (129) 政大圖檔 (113) 期刊論文閱讀 (98) Programming/JavaScript (85) 作品 (84) Blogger (77) 網路管理 (71) 記事 (58) DSpace (56) JavaScript (56) OS/ProxmoxVE (51) 程式寫作 (50) 碩士畢業論文 (47) Proxmox (41) Android (39) OS/Android (37) Presentation (36) OS/Linux (34) DataMining (31) Software/Weka (31) Course (30) Linux (29) 研究方法 (29) 虛擬機器 (29) OS/Windows (26) Software/Zotero (26) Work/Widget (26) Zotero (26) 新玩具 (26) DLLL-CIAS (25) Software/Windows (25) 程式語言/JavaScript (25) 網站服務 (25) Software/GoogleDoc (23) Software/LibreOffice (23) 雲端科技與圖書館行動服務研習班(2014) (23) Programming/PHP (22) 作業報告 (22) 研究所推甄 (19) 演講心得 (18) Windows/電腦軟體 (17) 資訊計量學 (17) Series/BigDataAnalysisCourse (16) 無題 (16) 課程/圖書資訊學研究趨勢 (16) PHP (15) Programming/AutoIt (15) GitHub (14) Programming/R (14) Statistics (14) 圖資學術界 (13) Software/Word (12) 課程/國際檔案學 (12) Series/LibreOfficeCalcTemplate (11) Software/OwnCloud (11) Software/R (11) VirtualMachine/VirtualBox (11) VirtualBox (11) 極短 (11) AutoIt (10) NetBeans (10) Server/ownCloud (10) Software (10) Software/Google (10) Software/NetBeans (10) Zentyal (10) 作業系統/Linux (10) KALS (9) Programing/PHP (9) Programming/PhoneGap (9) Research (9) Research/TextMining (9) 教學課程 (9) 課程/檔案應用研究 (9) 輔漫 (9) GLPI (8) Koha (8) OS/Chromebook (8) OS/Koha (8) Series/NOUWord (8) Software/SPSS (8) Work (8) 政大平價美食 (8) 數位圖書館 (8) CSS (7) OS/Zentyal (7) Plurk (7) Programming/CSS (7) Programming/Node.js (7) Drawing (6) OS/FreeNAS (6) Programming/APP (6) Service/GitHub (6) Software/PostgreSQL (6) Software/PostreSQL (6) Tool/NetBeans (6) VirtualMachine/OpenVZ (6) 報告/教學課程 (6) 發表 (6) 2009詐欺案件 (5) Note/Paper (5) Programming/Electron (5) Programming/Java (5) Programming/Python (5) Software/Firefox (5) Software/Inkscape (5) Work/Windows (5) 評論 (5) 3C (4) IDE (4) Library/ORCID (4) LibreOfficeCalcCourse (4) Programming/Database (4) Programming/SeleniumIDE (4) Programming/Vue.js (4) Research/SequentialAnalysis (4) Selenium (4) Server/OCS (4) Software/Browser (4) Software/Notepad++ (4) Software/PDF (4) Software/Pentaho (4) WebService (4) 博士班考試 (4) 問答訪談 (4) 課程/資訊行為與資訊服務 (4) 讀者服務研討 (4) CKEditor (3) Drupal (3) GAME (3) GoogleAnalytics (3) Hardware (3) Hardware/Notebook (3) OCS (3) Programming/CKEditor (3) Series/WekaImageClassification (3) Server/ApacheSolr (3) Software/Cortana (3) Software/Drupal (3) VirtualMachine (3) 活動籌辦 (3) 演講 (3) 生活/日記 (3) 網站系統/ownCloud (3) 課程/檔案學 (3) 遊戲 (3) 閱讀學習 (3) AngularJS (2) EMAIL-KM (2) GAME/PokemonGO (2) IPFire (2) MachineLearning (2) OS/IPFire (2) OS/pfSense (2) OSSIM (2) Programming/AdonisJs (2) Research/SocialNetworkAnalysis (2) Server/GitLab (2) Software/CWISE (2) Software/Office (2) Software/OpenLiveWriter (2) Software/WordPress (2) Software/mRemoteNG (2) Sponsored (2) VirtualMachine/Docker (2) pfSense (2) ニコニコ動画 (2) 國立政治大學 (2) 圖書資訊學研討 (2) 布丁通信 (2) 技術服務研討 (2) 生活/政大平價美食 (2) 研究方法\序列分析 (2) 研究領域/閱讀學習 (2) 硬體設備 (2) 系統/WordPress (2) 輕小說 (2) 電腦軟體/R (2) 3C/Note8 (1) Auto (1) Hardware/Teclast (1) Linux/WINE (1) Programming/AngularJS (1) Programming/HTML (1) Programming/SVG (1) Programming/Svelte (1) Programming/WebDesign (1) Programming/Webpack (1) Publication/Conference (1) RIME (1) Research/Infometric (1) SecondLife (1) Server/Apache (1) Software/ApacheTika (1) Software/DSpace (1) Software/FileZilla (1) Software/ImageMagick (1) Software/中州韻輸入法 (1) TimemarktoSSA (1) Travel (1) Userscript (1) 國家考試 (1) 國立空中大學 (1) 專題 (1) 課程/計算智能與商業分析 (1) 販售 (1) 資訊管理/網站管理 (1) 電視 (1)



請為這篇文章評分?