看个文献折腾了半天,把师姐给气疯了,最后发现这篇文献是特例

2025-05-14ASPCMS社区 - fjmyhfvclm

师姐一直是使用知云文献翻译来阅读翻译文献,可是今天上午正准备兴高采烈的阅读一篇文献,结果发现鼠标始终是一个手的形状,根本就无法划选到文字。师姐把软件卸载,然后重新安装,发现依然如此。然后师姐考虑以为是自己使用的旧版本知云不让用了,于是下载了新的知云,可是依然不行。

这可把师姐气的不行,赶紧找知云客服理论。客服先是让师姐多打开几篇文献,看是否所有文献都无法选中文字。结果师姐照做,发现其他文献都可以划选中文字,就这篇文献不能选中文字。

然后客服让师姐把这篇特别的PDF文献使用电脑上其他PDF阅读器打开,比如adobe、FoxitReader、wps等打开,尝试划选文字看能否选中文字。师姐照做,发现这篇文献真的很奇怪,使用其他PDF阅读器打开后也无法选中文字。这篇文献看上去没有区别啊,为何这么奇怪呢?

️这可真是见了鬼了

这个特别的PDF究竟蕴含什么道理呢?我们都知道,很多书是先有纸质版,然后有热心的人把它用扫描仪扫描成了一页页图片,然后从一页页图片转成了PDF文档。这类PDF虽然能用PDF阅读器打开用人眼阅读,但是当你想尝试选中其中的文字时,你发现无论如何都无法选中。有些人不理解,那么当你用电脑打开这篇文章,然后尝试选中下面这张图片上的文字并把它修改为“宋体”字。你试试看是否能够完成。

看下图,有时候当你打开一篇PDF文章或书籍,你看不出这本书是扫描版,但是你使用文本工具无论如何都无法选中其中的文字。为什么会出现这种情况呢?

假设我撰写了一个文档,我发布了它的PDF版本,但是我突然想到如果谁得到我的文档,他们可以很容易的从我的文档上复制走其中的文字,这岂不是便宜他们了?我只想让他们用眼睛看,不希望他们轻松的复制走上面的文字。那么怎么办?有两种方法。

️方法一:我把这个文档先转换成一页页的图片,转成图片后图片上的文字就无法选中了,然后再从图片转换成PDF文档。这种PDF文档中的文字就无法直接选中了,因为其中一页一页其实都是图片。你是否想过用鼠标直接复制下图中的文字?不容易吧?

️方法二:将文字转换成形状。

我们都知道同样是两个字“你好”,你可以通过输入法输入“你好”,你也可以完全通过绘画工具一笔一笔绘制出“你好”的样子出来。对于人眼来说看到的都是“你好”,但后者是无法选中的。在某些排版软件中把文字转换成形状又叫做“文字转曲”或者“创建轮廓”。排版软件中创造这种功能的目的是为了防止制作的文件在对方电脑中打开时如果对方没有某种特点字体导致文字显示错乱。

有时候我们制作的文档为了避免阅读者能轻易的复制其中的文字,我们也时常在发布文档之前把里面所有的文字转换成形状。这样阅读者就无法选中其中的文字了。

️你遇到的无法选中文字的PDF属于上面两类

要么是图片格式的PDF(纯粹的影印版书籍或者先转成图片,然后从图片制作而成的PDF);要么是文字已经转换成形状的PDF。

️截图或拍照翻译不是好方法

虽然目前大部分手机或者手机上的很多app都可以拍照后直接识别图片上的文字并给予翻译,但是面对一个几十页的PDF或几百页的PDF书籍,这绝对不是一个好方法。

️ocr转换才是推荐的方法

下图是百度百科中关于OCR的解释。用途十分广泛。所谓OCR通俗的说就是根据图形的外观来判断出它是什么文字。

我相信你都知道只要你开车进入一个停车场,它就直接报出你的车牌号了。因为摄像头对拍摄到的图片进行分析,识别出了其中的文字。这就是OCR的一种使用。

图片来源于网络

OCR应用最广的当然就是识别扫描版本的书籍,通过OCR软件分析画面,软件会识别出其中一个个文字,并把文字转换成标准文字的编码。

图片来源于网络

️OCR软件是我们科研人员都需要知道的

OCR软件能把扫描的书(图片或PDF格式)、图片格式的书(图片或PDF格式)转换成文字型。OCR软件并非某个特定软件的名称,而是指一类软件。比如办公软件不是某个软件,而是某类软件,同样的道理。word、wps属于办公软件。OCR软件有很多,小编最推荐的是下面两款软件。两款软件所使用的OCR内核都是abbyy的,转换质量(失败准确率)都是数一数二的。

下面这款软件就是PDF x-change,网上能找到的版本分别是PDF-XChange Editor和PDF-XChange Pro,两者均可。PDF-XChange是一款加拿大公司出品的PDF阅读、注释、编辑和OCR功能于一体的软件。这款软件默认不带中文文档的识别,但是可以自己添加对中文文档的识别,但是中文文档的识别准确率不如万兴OCR。因为PDF-XChange识别的中文文档中会添加很多空格。

下面这款软件是万兴PDF专业版。万兴PDF专业版,是一款国产的PDF阅读、注释、编辑和OCR功能于一体的软件。优点是中文和英文文档OCR都很优秀。缺点是转换速度相比PDF xchange稍慢。

️OCR转换速度对比

下面这个PDF有542页。我们分别在同一个电脑中进行转换,并计时。同时电脑上虽然有其他软件开启,但是都是静止状态。两个OCR软件不是同时开启,而是一个转换完成,再转换另外一个。小编已经测试过很多很多次。先后顺序对时间影响几乎没有。测试的PDF xchange版本:9.2.359。万兴OCR专业版版本:8.4.12。

PDF xchange转换完成的时间是4分22秒左右。

下面是完整测试录屏

万兴ocr专业版转换完成时间时候10分36秒左右。

下面是完整测试录屏

️软件选用建议:

大部人最经常阅读是的英文文献或英文书籍,如果是中文书籍一般不需要选择其中的文字,因此大部分情况下建议使用PDF x-change。如果你需要使用到中文文档的OCR,我建议使用万兴PDF专业版。

PDF x-change进行OCR转换的方法只需要看下面这张图片即可。尤其注意的是要去掉忽略页面中存在的文本的勾。下图中凡是框选的部分需要注意。其他保持默认即可。对于大部分文献来说,页数一般都在20页以内,转换时间也就是几秒钟到十几秒的事情。

万兴OCR专业版进行文档OCR识别转换的方法只需要看下图即可。如果你转换的文档是中文的,建议勾选语言中的English和简体中文。

转换完毕的PDF文档你可以单独保存,并用其他PDF阅读器打开阅读均可。这时你就发现其中的文字都可以选中了。

除了无法选中文字的PDF需要进行ocr转换之外,你还经常遇到很多其他千奇百怪的情况,比如复制的文字都是?和乱码之类,这类PDF也需要通过OCR转换之后才能正常选中文字进行翻译的哦。

由于目前目前大家需要划选文字翻译的几乎都是纯英文文献,因此大部分情况下我们更加推荐使用PDF-Xchange editor这款软件来进行OCR转换。这里附上目前新版本的PDF-Xchange editor 10.1绿色版。

请1️⃣微信收藏本篇推文,并2️⃣添加下方微信,3️⃣把本篇推文转发给下面资源客服微信。

️资源获取规则:

️我们每个资源推文后,仅支持在七天内获取。以推文日作为第一天,向后数到第七天,包括第七天。在推文后七天内均可添加文章中对应微信二维码获取。请微信收藏本文,然后把本文转发给上方微信,以便于我们知道你索要的是哪个资源。我们会直接发送给你下载链接。️不要求你转发朋友圈或分享群等操作,注意是不要求,这在业内算是十分良心的了,获取一个资源,不需花费金钱,也不需消耗人际关系,这是非常合算的事情。推文后从第8天起,不再支持获取该资源。由于添加人数可能比较多,我们会在24小时内逐个回复微信您。

全部评论