如何解决pdf里的文字复制出来是乱码的问题？ - 知乎

2024-11-26

文章推薦指數： 80 %

投票人數：10人

pdf文字复制粘贴后出现乱码的原因主要是所选定复制的文字内容原先是以嵌入字体的方式放到pdf中，且该嵌入字体是你电脑字体库中不存在的，因而复制粘贴时电脑无法识别其 ... 生活PDFAdobeReaderAdobeAcrobat如何解决pdf里的文字复制出来是乱码的问题？http://www.cninfo.com.cn/finalpage/2009-09-17/57061818.PDF现在一方面文字复制出来是乱码，另…显示全部关注者54被浏览382,336关注问题写回答邀请回答好问题3添加评论分享23个回答默认排序PDF365已认证帐号关注2人赞同了该回答这个就是因为PDF里面内嵌的字体你的电脑里面没有，要解决也方便，网上去下载相应的字体包就好了，但是想搞清楚是什么字体也麻烦。

所以我的建议是，直接把PDF转换成Word，或者是存文本的TXT格式，如果你想要排版好的，就转换成Word，只是想要文字，那就转成TXT。

工具：福昕PDF编辑器下载：福昕PDF编辑器-操作简洁的PDF编辑工具这款软件功能编辑、转换集于一身，非常适合需要办公党、学生党使用~~在软件打开PDF文件，然后切换到工具栏【转换】，点击【到MSOffice】，选择【到Word】，然后就可以转换成Word格式了。

要转换成TXT格式也简单，还是在转换菜单下面，点击【到其他格式】，选择【到纯文本】，然后转换就可以了。

如果不想下载软件，那也可以用在线的PDF转换工具，上传PDF即可进行转换，效率相对更高一点，这个就看个人的喜好了。

在线PDF转Word_在线PDF转换成Word转换器_PDF在线转换发布于2022-09-2617:53赞同2添加评论分享收藏喜欢收起花开彼岸天热爱网络冲浪的网友一枚！关注85人赞同了该回答pdf文字复制乱码解决教程一、引语pdf文字复制粘贴到Word、记事本等文字输入框后出现乱码是日常文档处理过程常见问题之一，本文旨在为这一问题提供相对完整且可行性较强的解决方案。

二、产生原因pdf文字复制粘贴后出现乱码的原因主要是所选定复制的文字内容原先是以嵌入字体的方式放到pdf中，且该嵌入字体是你电脑字体库中不存在的，因而复制粘贴时电脑无法识别其编码，从而产生乱码。

简而言之，乱码问题主要是由嵌入字体导致的。

乱码问题示例：说明：使用360浏览器打开pdf文件，复制正常文字“人民币国际化”，粘贴到Word后对应出现的是乱码“!"#$%&&”，表明该pdf文档在此处使用了内嵌字体，且电脑因没有该字体而无法识别。

三、解决方案方案1：下载内嵌字体前文提到，乱码问题产生主要是由电脑中没有对应的内嵌字体导致的，因此把pdf中的所有内嵌字体下载并放到字体库中是解决方案之一。

这里所需要的一个是可以查看嵌入字体的软件，另一个是嵌入字体文件，以下案例使用的是AdobeAcrobat以及嵌入字体SeasideResortNF。

操作步骤：1.用AdobeAcrobat打开文档。

2.点击文件→属性→字体，即可查看嵌入字体。

3.下载对应嵌入字体后安装或直接放入C:\Windows\Fonts4.安装完成后，粘贴复制为应对的正常文字方案说明：方案1主要针对编码可识别（例如Ansi）且能够下载的嵌入字体，对于自定义编码以及无法下载的嵌入字体则不适用，具有较大的局限性。

方案2：格式转化+文字识别前面提到，方案1不适于自定义编码下的内嵌字体，因此对于保护性较强的pdf容易失效。

于是有很多网友尝试单纯使用文字识别这一方法来解决复制乱码问题，但是这种做法导致一些棘手的问题，即文字识别后排版格式会十分凌乱，尤其是带有表格、图片的页面，同时查阅时要先看原pdf，然后再转到转化后的文档复制，徒增操作时间。

单纯文字识别示例：原pdf界面（左）及转化后word界面（右）：说明：本示例使用的是国内市场上常见的电脑版捷速OCR文字识别，其他的识别软件的效果经过考察基本与右侧界面的效果一致，即文字排版乱，图片、表格等不显示或仅显示文字，且不利于即看即复制这一正常操作习惯。

除了前面提到的两个问题，直接文字识别还容易碰到文档权限受限不能操作（例如文档加密）、pdf含渲染文本不能操作等等。

因此方案2前置的“格式转化”操作就变得十分有必要了。

这里所需要使用的是一个能够将pdf转化为图片的转换器，另一个是能够同时识别文字及图片、表格并且排版较为规范的文字识别软件。

方案2使用的是迅捷PDF转换器以及2020或2021版adobeAcrobat。

操作步骤：1.打开pdf转换器→PDF转其他→文件转图片2.点击导入所要转化的pdf文档，选择不要合成一张，点击开始转换注：不要合成一张是为了转化后的图片个数与pdf页数一致，这样后续转化后的文档能够与原先的pdf格式保持相同，文中所用pdf页数为6。

转化后的图片文档如下所示：3.打开pdf转换器→文件转PDF→图片转PDF4.按找图片标号顺序依次导入前面转化的所有图片，选择合成一张，点击开始转换注：必须依次序导入才能保证于原始pdf格式一致。

转化后得到由每页图片所组成的pdf文件——案例2-图片扫描版.pdf格式转化这一前置操作目的在于，把pdf原先含有渲染效果以及文档权限的文本图形化，最后合成由图片页面而不是文档页面的pdf，为后续文字识别奠定基础。

5.打开AdobeAcrobat→打开案例2→图片扫描版.pdf→点击工具→打开扫描和OCR6.点击识别文本→在本文件中7.点击设置→选择所有页面→输出一栏选择可编辑的文本和图像→确定→点击识别文本注：页面选择可根据实际需要调整，输出一栏选择可编辑的文本和图像有利于将图片、表格等元素纳入识别范围，提高识别后文档的规范性，同时识别过程时长视pdf的页数和大小而定，页数较多或文件较大等待时间会比较长，尤其是页面识别完成后仍有一个整合过程，务必耐心等待。

8.识别及整合完成后→点击文件→另存为（案例2-文字扫描版.pdf）转化后问题解决示例：说明：转化完成后打开pdf，复制最开始相同文字“人民币国际化”，word显示正常文字“人民币国际化”。

原始文档（左）和最终转化文档（右）效果对比——AdobeAcrobat：说明：AdobeAcrobat运行下两者效果几乎一致。

原始文档（左）和最终转化文档（右）效果对比——360浏览器pdf：说明：360浏览器运行下右侧最终文档除了大小不一致之外，其他效果几乎一致。

四、总结pdf文字复制乱码问题主要是由pdf格式下内嵌字体所导致的，可以通过下载内嵌字体或者格式转化+文字识别解决。

前者由于不能解决自定义编码的局限性其有效性不足，因此后者是更为合适的解决方案。

从实例展示来看，第二种方案不仅能够解决乱码问题，而且效果明显好于一般的文字识别。

尽管方案二的效果显著，但是其寻求下载使用迅捷pdf转化器和AdobeAcrobat的金钱和时间成本还是比较大。

对于没有这些软件的网友来说，前置成本可能是难以接受的，尤其是日常文档操作需求不高的情况下。

除此之外，应当说这个方案对于程序员来说也许就不那么先进了，对于这些网友来说通过设计程序就能够解决问题。

因此，本文第二种方案应当说为一般使用者提供了一种操作性较强的解决方案。

觉得有用的知友麻烦点个赞，谢谢大家了！本教程版权归知乎用户“花开彼岸天”所有，未经允许不得转载！编辑于2021-07-1718:36赞同855条评论分享收藏喜欢收起