清水湾论坛 - 香港科技大学内地学生学者联谊会 MSSS

完整版: 傻瓜级 PDF 文件优化技巧(zz)
你目前正在浏览的是简化版. 请点击这里浏览完整版
来源: 李铁牛的日志

  开学了,又是 reading 满天飞的时节。很多课程老师会提供阅读材料的电子版,但时常会出现渣扫描(印歪、黑边、奇怪的斑点……)的情况,减去了不少阅读快感。本文将会介绍一些简单的 PDF 优化技巧,从最基本的分割和合并文件、切割页面、裁切白边,到稍微复杂一点的文字识别和自动旋转至水平都有所涉及。在这里,“简单”的意思是安装了所需要的小软件之后,点几个按钮就可以快速完成。

  涉及的大多数软件都是免费版,除了 Adobe Acrobat (注意是“Acrobat”而不是“Reader”)。但要实现大多数这里介绍的功能(ocr 之外的所有功能), Acrobat 并非必须,只是搞一个来的话(破解、试用、在学校电脑用……)会省去很多麻烦。不过为了省去我的麻烦,在此我会基本上只提供所需要的软件名称,请自行百度谷歌搜索下载,中毒不要找我。

  不过需要折腾 PDF 的同学还是去装一个,它有许多奇妙的功能,甚至包括像在 Word 里面一样编辑 PDF 上的文字……

  如果这样还是不会弄的话就找个男朋友去吧。另外,阅读的材料制作粗糙不是学术渣的借口,韩鳕鲅从来不关心我这些雕虫小技。

分割和合并文件

  分割文件在我这里的意思是把一个多页的 PDF 文件拆分成若干个页数较少的文件。比如把一个100页的文件分成100个1页的文件,或者5个10页的文件,或者……

  使用软件:PDFSpliter。没什么好说的,装好你就知道怎么用了……

  使用软件:Acrobat。也没有什么好说的……分割有三种方式,一是 Split Document (对不起我用的英文版),二是(当你只需要大文件中的某几页时) Extract,三是(仍然是只需要某几页时)直接打印特定页数,打印机选择Adobe PDF,就会生成PDF文件了。合并的话更方便,直接在资源管理器里选择想要合并的多个文件,右键菜单里就有合并选项(被合并的文件可以是 PDF 或者图片、ppt、doc 等各种文档,而且合并时可以选择压缩文件大小)。

  事实上这个打印功能用途广泛,请自行研究。

裁切白边

  裁切白边的意思是把文件每一页的边缘空白裁掉,这个功能的作用是方便 Kindle 等阅读器阅读(Kindle 的自动切边功能比较笨),或者在把多个页面打印到一张纸上时使每一页的内容稍微大上一点……注意,如果你打出来的文件是给费马同学看的,请确保白边够大,谢谢。

  软件:Briss。打开后 “load” 需要处理的文件,程序会自动选中页面上的文字部分(即白边之外的部分……),可以手动微调或设置具体数值。这个软件会把整个文件的所有页面(或者奇数、偶数页面分开)叠在一起选中共同的文字部分,所以你不必一页一页调白边要裁多少。

  软件:Acrobat。快捷键 Ctrl + Shift + T ,然后可以选择四周分别裁多少、需要裁哪些页面……也有自动的去除白边功能(对于渣扫描的文档而言这个功能非常傻逼)。这个其实不如 Briss,因为是每页分开处理的,而不是把多个页面重叠在一起切共同的白边。

切割页面

  切割页面的意思是:有时候会遇到一些 PDF 文件,一个页面上有被扫描的书的两页内容(因为是一本书摊开扫描的),但是你想把这文件切回成每个电子的页面上只有一个实体书页面的状态。另一个情况是你想把分栏的文件弄成一栏。

  方法一:使用 Acrobat 和一个能批量修改文件名的工具“拖把更名器”,实在太烦,贴个链接。个人感觉该方法巨麻烦而且还有一些我不想解释的缺点,所以在我发现方法二之后就抛弃了它,但在发现方法三之后我又抛弃了方法二……

  方法二:Briss。在你裁白边的时候,也许你已经注意到了页面上的被选中部分有一个巨大的数字“1”,这时只要在边上没选中的部分框选一个区域,就会被标上“2”,依次类推……事实上如果你导入的是一个明显分两个文字区域的文件,这个过程是会被程序自动完成的。

  方法三:使用大杀器 Scan Tailor,详见下一段。

Scan Tailor

  该软件似乎是国外一帮专门研究怎么处理扫描的文件的家伙们开发出来的一个小工具,性能优越,据说由该软件处理生成的电子书被谷歌图书直接采用过。详细介绍(英文)点击这里。

  该软件提供的第一个功能叫 Fix Orientation,意思是修正性取向……啊不,修正文件的大方向。这里只能以90°的倍数旋转页面。

  第二个功能叫 Split Pages,这并不是我们在1.里面提到的分割文件,而是我们在3.里面提到的方法三。自动模式下会自动识别文件是否分页,也可以手动在三种情况下选择:不分页、分两页且两页都保留、分两页但抛弃其中只是扫描到边缘部分的一页。

  第三个功能叫 Deskew,精确修正页面的方向。扫描的文件,尤其是老师给的,很多都是歪的(我觉得这个得赖助教?),使用该功能则可以改正。诸如 Acrobat 之类的软件只能按90°的倍数旋转,而该软件则几乎可以旋转任意度数(其实有个最小值,大概是0.06°吧)。同样分手动和自动,自动的正确率相当之高。

  第四个功能是 Select Content,即选中内容。就是把页面上有文字的部分选中,运用这个功能可以像 Briss 一样去除白边。由于 Scan Tailor 是一页一页分开识别的,所以比 Briss 更精确。同样支持自动和手动,自动的识别精度挺高的,不会放过页码但会放过各种奇怪的斑点……不过缺点是遇到标题页之类的页面会裁得太多……

  第五个功能 Margins,就是设置白边……所以如果你是用这个软件来去白边的话,全设置为0就可以了。这个功能主要是在制作版面赏心悦目的电子书文件时有用,可以把功能四里面裁得参差不齐的页面用白边统一大小。

  第六个功能 Output 输出,里面有一些小的优化功能比如调分辨率;模式里可以选黑白、灰度或彩色、混合三种,其中黑白和混合两种可以加厚或减薄文字(当扫描件比较模糊字显得比较细的时候有用),需要手动把握程度;Dewarping 功能还在测试不用也罢;Despeckling 可以去除文件上的斑点,三种级别可选,重度的话可能会出现把标点符号也干掉的情况。

  综合来说这个软件非常好用,如果你没有很偏执地想精确调整每一页的话。当然也有缺点,比如被处理的文件必须先转换为图片,然后再从图片转为 PDF (这些功能可以用 Acrobat 轻松完成,也可以使用 p2pdf 等小软件)。另一个缺点是对渣扫的中文文件效果不佳,经常整个儿吞字……最后还有一个缺点是好像没有 mac 版本,喜闻乐见!

文字识别(OCR)

  扫描版文件的一个问题就是虽然丫是电子版,但是并不能进行文字搜索,这时候就需要把文件转化一下。

  软件: acrobat。在工具(Tools)里面有一栏 Recognize Text,打开后可选有语言、分辨率和三种 OCR 方式,其中值得一提的是 ClearScan,有把模糊的字变清晰之奇效。

  事实上有许多其他更专业的 OCR 软件,但 Acrobat 是我所知道的里面最简便好用的,虽然有许多缺点比如 ClearScan 模式下不能手动修改识别错误的文字。

拓展阅读

  觉得 Scan Tailor 还不够给力的同学的,可以参考这篇文章的后半部分,前半部分太可怕了。

  觉得 Acrobat 的 OCR 不够给力的同学对不起了,以前曾经有过一个很好的介绍这方面的文章,后来那个博客莫名其妙被封了,于是我找不到了。

源地址:http://blog.renren.com/GetEntry.do?id=894198293&owner=248315715
结构的谷歌广告帐户以这种方式提供了一系列的好处。这种方法不仅使管理您的帐户更容易,它还可以确保您的广告和他们相关的广告组是尽可能相关的。这反过来又意味着,您的广告将被显示在正确的人,在正确的时间,在正确的地方。当涉及到您的广告的可见性时,除了帐户结构外,还有其他考虑因素,如竞价策略,关键字匹配类型和其他目标参数,但从逻辑和语义上构建您的帐户应该是任何谷歌广告优化工作流程的第一步。来自:www.yestupa.com