pdf文件标签自动批量生成

时间:2024-02-19 19:58:57
  1. 打开abbyy finereader软件并新建一个pdf文件到word的任务,启动对指定pdf文件的文字识别,如果pdf文件较大,识别过程会很长,因此当完成目录页的识别后即可停止,然后将识别出的目录文本拷贝到excel表格中(也可以将pdf文件的目录页面导出,然后用abbyy finereader将导出的pdf文件转换为word文档,再将word文档中的目录文本拷贝粘贴到excel表格)。
  2.  对excel表格中的目录文本进行修整。由于abbyy的文字识别准确率不能达到100%,可以对其中错误的文字进行适当修正。有些页码并不是数字形式(比如I、IV、XI等),需要替换成数字形式。将表格调整为两列,每行文本除页码外的内容放置第一列(通过列合并来实现),页码放置在另一列。如果页面的实际页码与目录中标明的页码不一致,需要对每行文本的页码都加上(或减去)一个差值(excel很容易完成这种任务,这也是使用excel来调整目录文本的原因),注意在调整页码数值之前需要移除所有的空行。
  3. 书签文档制作。新建txt文件并将excel表格中的文本复制到该文档,对书签文档中的每行文本按目录级别缩进相应数目的tab(第一级不缩进),然后将书签文档保存在特定目录下。
  4. 打开FreePic2Pdf软件,点击右下角的“更改pdf”按钮,在弹出的"更改pdf"对话框中点击“往pdf挂书签”标签页,然后选择待修改的pdf文件、设置工作目录(存放配置文件和书签文档的目录)和编辑配置文件(接口文件),操作步骤如下图所示。点击上图中的配置文件编辑按钮后,弹出下图所示窗口,在[Bkmk]-->[File]配置项处填入制作好的书签文档的名称,然后点击“保存”按钮关闭编辑窗口。接着在“更改pdf”窗口中点击“开始”按钮,即可在pdf文件中插入书签(注意此操作会改动原始的pdf文件)。