PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/ How to ...
文章推薦指數: 80 %
但問題是,它複製出來的文字實際上都是亂碼。
image. 就算Acrobat Pro DC有提供OCR工具,但因為該文件本身已經有經過OCR處理,包含了可渲染的文字 ...
:::
HOME
SITEMAP
ABOUT
MENU
HOME回到首頁
SITEMAP網站地圖
ABOUT關於布丁
PUBLICATIONS發表
WORKS作品
ARCHIVES文章列表
LABELS標籤
DONATE捐款
SUBSCRIBE訂閱
CONTACT聯絡布丁
HELP
:::
PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/HowtoperformOCRPDFwithRenderableTextError
3月30,2018
OS/Windows
,
Software/PDF
,
Software/Windows
,
Windows/電腦軟體
2Comments
Edit
Copy
Download
雖然PDF檔案是標準格式,但是隨著PDF檔案產生的方法不同、文字辨識OCR工具帶來的字型與編碼問題,很多早期的PDF檔案雖然可以選取、複製文件上的文字,但複製出來的文字卻會是亂碼。
我參考了GrantRobertson的建議,將PDF輸出到XPS印表機,再將XPS輸出成PDF,這樣就可以在PDF上進行OCR辨識,最後就能得到正確辨識的檔案了。
以下我就來整理這一套做法,供大家參考參考。
OCR文字錯誤的檔案/PDFwithRenderableTextError1.RenderableTextError.pdf這是「Doestestdelayeliminatecollaborativeinhibition?」論文中的一頁。
這個PDF檔案雖然有經過OCR,可以直接選取、複製。
但問題是,它複製出來的文字實際上都是亂碼。
就算AcrobatProDC有提供OCR工具,但因為該文件本身已經有經過OCR處理,包含了可渲染的文字(renderabletext),因此不能再次進行OCR。
Acrobat官網的建議是把PDF輸出成tiff圖片,再將圖片建立成PDF,然後再重新OCR。
但這種做法會造成文字解析度變差,原本清晰的向量文字變成了點陣文字,看起來就不太舒服。
最後我找到的是GrantRobertson使用XPS印表機做法,讓我們來看看怎麼做吧。
XPS印表機/XPSPrinterXPS(XMLPaperSpecification)是微軟開發的文件檔案格式,類似於Acrobat的PDF,不過不能像PDF這樣修改檔案的內容。
製作XPS檔案的方式是利用MicrosoftXPSDocumentWriter這個虛擬印表機來列印檔案,就可以將任何可列印的檔案製作成XPS格式的檔案。
在WindowsVista之後的作業系統都有預設安裝這個印表機,不過如果是Vista之前,或是不小心砍掉了這個印表機的話,可以參考[Windows]安裝MicrosoftXPSDocumentWriter印表機這篇來重新安裝。
待會我們的操作就會用到這個XPS印表機,讓我們開始吧!Step1.將PDF列印成XPS檔案/PrintaPDFintoXPSformatfile雖然用任何可以開啟PDF的檔案來進行列印即可,不過這邊我使用的是AcrobatProDC的列印對話視窗。
在這個對話視窗中,我們主要進行兩個設定:Printer:MicrosoftXPSDocumentWriter:這樣就可以輸出XPS檔案。
[v]ChoosepapersourcebyPDFpagesize:這樣輸出的頁面尺寸就會配合原本的PDF檔案大小。
按下Print之後,XPS印表機就會要你選擇路徑跟檔案名稱來保存XPS檔案。
這樣我們就產生了副檔名為.xps的XPS檔案了。
Step2.用AcrobatProDC開啟XPS檔案雖然XPS預設是用XPS檢視器開啟,但這邊我們選擇使用AcrobatProDC開啟它,這樣可以節省轉換為PDF的步驟。
在開啟XPS檔案的時候,AcrobatProDC就已經默默地將它轉換成PDF檔案了。
從XPS檔案轉換過來的PDF檔案已經失去了可渲染的文字,因此我們不能直接選取,還需要進行文字辨識OCR才行。
讓我們繼續進行下一步。
Step3.文字辨識/OCR接下來就可以用我們熟悉的OCR工具來為PDF進行文字辨識。
AcrobatProDC的文字辨識放在「Tools>EnhanceScans」中,選擇「RecognizeText」,然後設定想要辨識的語言,再按下「RecognizeText」,這次PDF就能夠正常進行OCR處理。
經過OCR之後的PDF檔案就能選取與複製。
複製之後的文字也相當正常囉。
把經過OCR處理的PDF檔案儲存起來,整個流程就完成了。
檔案大小的問題/Aissueaboutthefilesize乍看之下這樣的做法可以解決OCR文字錯誤的問題,但背後卻隱藏著另一個問題:檔案大小急劇增加。
讓我們來看看每階段操作產生的檔案大小變化:1.RenderableTextError.pdf(31KB):這是原始包含OCR錯誤文字的檔案,一頁只有31KB。
2.PrintPDFtoXPS.xps(74KB):轉換成XPS之後,檔案大小增加超過兩倍。
3.PrintXPStoPDF.pdf(362KB):從XPS轉換成PDF,檔案大小增加了5倍。
4.OCRText.pdf(480KB):再進行OCR的處理,檔案大小又增加了1.3倍。
跟原始檔案相比,轉換到最後的檔案足足增大了15倍之多!大部分論文的頁數不多,就算經過這樣處理,檔案大小也頂多不會超過10MB。
但若是很多頁的厚重報告,轉換之後的檔案尺寸可能會相當驚人,大家在用這方法之間可能要三思。
GrantRobertson也在文中討論了這個問題,他建議的是使用ClearScan,也就是Output的「SearchableImage」。
這樣可以讓檔案變得非常小,並且保留可選取文字的功能。
但是這樣會讓文字從向量轉換成黑白的點陣圖,使得文字看起來不再清晰。
如果不是很介意檔案大小的話,我寧願讓檔案大一點、並且維持清晰的文字,看起來比較舒服。
小結/Inclosing其實PDF中OCR文字辨識錯誤的問題困擾了我很久,今天總算是花點時間來找找方案,最後才發現原來還有XPS這招可以用,真是感謝GrantRobertson的說明。
希望這個方法對你也有幫助!這篇修正PDF中OCR文字錯誤的教學就到這邊囉。
你也有遇到這種PDF檔案嗎?你都是怎麼處理的呢?如果你有什麼建議的話,歡迎在下面留言提出指教。
如果你覺得這篇介紹有幫到你的話,請幫我在AddThis分享工具按讚、將這篇分享到Facebook等社群媒體吧!感謝你的耐心閱讀,讓我們下一篇見。
布丁布丁吃布丁
PDF的文字錯誤怎麼辦?修正PDF上錯誤的OCR文字/HowtoperformOCRPDFwithRenderableTextError
是由
布丁布丁吃布丁
製作,以創用CC姓名標示-非商業性-相同方式分享3.0台灣授權條款釋出。
這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。
L
P
關於布丁
訂閱BLOG
贊助
RelatedPosts
總共2則留言
(
我要發問
,
隱藏留言
顯示留言
)
布丁布丁吃布丁2018年3月31日凌晨1:19今晚用這招用一用就遇到例外狀況了。
有時候PDF列印成XPS檔案的時候,不知為何它還是保留了可渲染的文字這時候再將它列印成XPS檔案,然後再用Acrobat開啟,這時候就會移除可渲染文字了總之多轉存XPS幾次,這樣子就可以順利移除掉可渲染文字,重新OCR吧。
回覆刪除回覆回覆布丁布丁吃布丁2018年7月26日晚上7:49今天又用了一次,感激感覺回覆刪除回覆回覆新增留言載入更多…
CommentTools:
Chooseone...
UploadImage(imgur)
UploadVideo(Streamable)
UploadTemporaryFile(Upload.express)
CodeFormatter(forHTMLorXMLcode)
CommentsFeed(JSONformat)
CommentsFeed(XMLformat)
較新的文章
首頁
較舊的文章
訂閱:
張貼留言(Atom)
:::
AboutMe
布丁布丁吃布丁
這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。
FacebookFanpage
NowLoading...
RandomPosts
Guestbook
RecentPosts
Comments
:::
聯絡布丁
信箱:[email protected]
提問:
留言板
聯絡時間:週一~週日24小時
BuyMeACoffee(Donate)
如果有幫到您的話,請布丁喝杯咖啡吧!
進入贊助捐款網頁
Labels
(AllLabels)
日記
(235)
輔大圖資
(166)
電腦軟體
(129)
政大圖檔
(113)
期刊論文閱讀
(98)
Programming/JavaScript
(85)
作品
(84)
Blogger
(77)
網路管理
(71)
記事
(58)
DSpace
(56)
JavaScript
(56)
OS/ProxmoxVE
(51)
程式寫作
(50)
碩士畢業論文
(47)
Proxmox
(41)
Android
(39)
OS/Android
(37)
Presentation
(36)
OS/Linux
(34)
DataMining
(31)
Software/Weka
(31)
Course
(30)
Linux
(29)
研究方法
(29)
虛擬機器
(29)
OS/Windows
(26)
Software/Zotero
(26)
Work/Widget
(26)
Zotero
(26)
新玩具
(26)
DLLL-CIAS
(25)
Software/Windows
(25)
程式語言/JavaScript
(25)
網站服務
(25)
Software/GoogleDoc
(23)
Software/LibreOffice
(23)
雲端科技與圖書館行動服務研習班(2014)
(23)
Programming/PHP
(22)
作業報告
(22)
研究所推甄
(19)
演講心得
(18)
Windows/電腦軟體
(17)
資訊計量學
(17)
Series/BigDataAnalysisCourse
(16)
無題
(16)
課程/圖書資訊學研究趨勢
(16)
PHP
(15)
Programming/AutoIt
(15)
GitHub
(14)
Programming/R
(14)
Statistics
(14)
圖資學術界
(13)
Software/Word
(12)
課程/國際檔案學
(12)
Series/LibreOfficeCalcTemplate
(11)
Software/OwnCloud
(11)
Software/R
(11)
VirtualMachine/VirtualBox
(11)
VirtualBox
(11)
極短
(11)
AutoIt
(10)
NetBeans
(10)
Server/ownCloud
(10)
Software
(10)
Software/Google
(10)
Software/NetBeans
(10)
Zentyal
(10)
作業系統/Linux
(10)
KALS
(9)
Programing/PHP
(9)
Programming/PhoneGap
(9)
Research
(9)
Research/TextMining
(9)
教學課程
(9)
課程/檔案應用研究
(9)
輔漫
(9)
GLPI
(8)
Koha
(8)
OS/Chromebook
(8)
OS/Koha
(8)
Series/NOUWord
(8)
Software/SPSS
(8)
Work
(8)
政大平價美食
(8)
數位圖書館
(8)
CSS
(7)
OS/Zentyal
(7)
Plurk
(7)
Programming/CSS
(7)
Programming/Node.js
(7)
Drawing
(6)
OS/FreeNAS
(6)
Programming/APP
(6)
Service/GitHub
(6)
Software/PostgreSQL
(6)
Software/PostreSQL
(6)
Tool/NetBeans
(6)
VirtualMachine/OpenVZ
(6)
報告/教學課程
(6)
發表
(6)
2009詐欺案件
(5)
Note/Paper
(5)
Programming/Electron
(5)
Programming/Java
(5)
Programming/Python
(5)
Software/Firefox
(5)
Software/Inkscape
(5)
Work/Windows
(5)
評論
(5)
3C
(4)
IDE
(4)
Library/ORCID
(4)
LibreOfficeCalcCourse
(4)
Programming/Database
(4)
Programming/SeleniumIDE
(4)
Programming/Vue.js
(4)
Research/SequentialAnalysis
(4)
Selenium
(4)
Server/OCS
(4)
Software/Browser
(4)
Software/Notepad++
(4)
Software/PDF
(4)
Software/Pentaho
(4)
WebService
(4)
博士班考試
(4)
問答訪談
(4)
課程/資訊行為與資訊服務
(4)
讀者服務研討
(4)
CKEditor
(3)
Drupal
(3)
GAME
(3)
GoogleAnalytics
(3)
Hardware
(3)
Hardware/Notebook
(3)
OCS
(3)
Programming/CKEditor
(3)
Series/WekaImageClassification
(3)
Server/ApacheSolr
(3)
Software/Cortana
(3)
Software/Drupal
(3)
VirtualMachine
(3)
活動籌辦
(3)
演講
(3)
生活/日記
(3)
網站系統/ownCloud
(3)
課程/檔案學
(3)
遊戲
(3)
閱讀學習
(3)
AngularJS
(2)
EMAIL-KM
(2)
GAME/PokemonGO
(2)
IPFire
(2)
MachineLearning
(2)
OS/IPFire
(2)
OS/pfSense
(2)
OSSIM
(2)
Programming/AdonisJs
(2)
Research/SocialNetworkAnalysis
(2)
Server/GitLab
(2)
Software/CWISE
(2)
Software/Office
(2)
Software/OpenLiveWriter
(2)
Software/WordPress
(2)
Software/mRemoteNG
(2)
Sponsored
(2)
VirtualMachine/Docker
(2)
pfSense
(2)
ニコニコ動画
(2)
國立政治大學
(2)
圖書資訊學研討
(2)
布丁通信
(2)
技術服務研討
(2)
生活/政大平價美食
(2)
研究方法\序列分析
(2)
研究領域/閱讀學習
(2)
硬體設備
(2)
系統/WordPress
(2)
輕小說
(2)
電腦軟體/R
(2)
3C/Note8
(1)
Auto
(1)
Hardware/Teclast
(1)
Linux/WINE
(1)
Programming/AngularJS
(1)
Programming/HTML
(1)
Programming/SVG
(1)
Programming/Svelte
(1)
Programming/WebDesign
(1)
Programming/Webpack
(1)
Publication/Conference
(1)
RIME
(1)
Research/Infometric
(1)
SecondLife
(1)
Server/Apache
(1)
Software/ApacheTika
(1)
Software/DSpace
(1)
Software/FileZilla
(1)
Software/ImageMagick
(1)
Software/中州韻輸入法
(1)
TimemarktoSSA
(1)
Travel
(1)
Userscript
(1)
國家考試
(1)
國立空中大學
(1)
專題
(1)
課程/計算智能與商業分析
(1)
販售
(1)
資訊管理/網站管理
(1)
電視
(1)
延伸文章資訊
- 1如何解决pdf里的文字复制出来是乱码的问题? - 知乎
- 2PDF檔內容無法複製,會出現亂碼 - Reo Chen - 痞客邦
106/02/9 同事來電說他下載的PDF檔,沒辦法正常複製裡面的內容,貼出來的文字全部都是亂碼... 只能說平常有燒香有保佑(??!!)哈剛好那天上午在網路上逛 ...
- 3PDF 內嵌字型亂碼問題 - iT 邦幫忙
但是複製這些PDF上的亂碼到記事本(txt) 是正常的文字或是把PDF轉成word格式也顯示正常文. 現在是用Adobe Acrobat 2017. 4 則回答 2 則討論 分享.
- 4【pdf亂碼破解】資訊整理& pdf列印亂碼相關消息| 綠色工廠
pdf文字复制乱码解决教程. 一、引语. pdf文字复制粘贴到Word、记事本等文字输入框后出现乱码是日常文档处理过程常见问题之一,本文旨在为这一问题提供相对完整且可行性 ...
- 5多种方式99.9%解决从PDF复制文字后乱码问题 - CSDN博客
背景需要从PDF复制文字出来做笔记,可是谁知道PDF通过adobe打开后复制出来后是乱码,如下图所示:(再次感谢guide哥整理的文档)解决尝试过安装字体, ...