抓取JPG和PDF上的文字

简单抓取PDF上的文字
大家或许有很多工具来抓取PDF上的文字,今天我想介绍大家一个简单有实惠的方法来抓取PDF文件上的文字.
首先打开PDF文件，然后选择打印,只要您系统上安装了Microsoft Office 2003的话,您将会有一个名字为Micosoft Office Document Image Writer可以选择,然后图片将打印到一个扩展名为MDI格式的图象文件.然后我们可以编辑这个文件,选择菜单工具中的"将文本发送到WORD",它将自动处理图象,将图象上的文字转换到WORD上.

让JPG上的文字转换到WORD中
在日常工作中,我们可能会遇到需要把扫描后的表格或文章再重新修改或排版,然而大家都知道,扫描后的文件格式是图片格式.一般情况下只有高档点的扫描仪可以直接选择扫描成PDF后者WORD格式.但是如果我们只有普通的扫描仪,而又要做到修改扫描后的文档,现在我就来教大家怎么在条件限制下,达到我们的目的.
首先我们要准备好OFFICE 2003,然后打开OFFCIE工具中的Micosoft Office Document Scanning工具,设置完后,我们就可以在需要修改的图片上右击,选择打印,然后一直下一步,知道选择打印机时,选择Micosoft Office Document Image Writer,然后将图片打印到文件扩展名为mdi格式的图片格式.打开后选择菜单工具中的"将文本发送到WORD".就是这么简单方便

各种格式文件转换成word文件的方法2007-03-01 下午 07:58各种格式文件转换成word文件的方法各种格式文件转换成word文件的方法你还在为不同格式的文件怎么变成word文件发愁吗？各种识别软件各有缺陷，识别效率低，让你痛苦不堪，有的只能识别字，对表格和图形无能为力，识别完了，版面乱七八糟，无法使用。现在好了，本文针对各种情况下文字识别进行总结，帮助大家掌握正确方法，节省时间，本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案：

1、PDF文件的识别：

1）文件可以直接识别的（以文本形式保存的PDF文件）：安装acrobat 5 专业版，注意不是acrobat reader，直接另存为rtf文件（识别整个文件），或者选择工具栏上的文字选择按钮，然后选择文字区域，然后复制到word等中。

2）文件不能直接识别的（以图片形式保存的PDF文件）：安装office2003，并装上office工具Microsoft Office Document Imaging（完全安装此工具），然后在打印机里面会增加Microsoft Office Document Image Writer打印机，然后将PDF文件打印到此打印机，选择打印形成的文件的保存位置，然后会自动形成一个MDI文件，并且自动用Microsoft Office Document Image打开此文件，然后选择“工具”菜单下的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”，最后将把整个PDF文件识别输出到word文件中。

注意：Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格，但是无法将图形输出到word，而是把文件中的所有图形单独形成一个个独立的图片文件，放在相同位置的一个相同名称的文件夹中，因此可用snagit软件将图形打开，然后复制到word中。（所有的识别软件都不能很好的处理图形的识别问题，Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。）

3）加密的Pdf文件：先下载解密软件，解密后在参看1),2)
4）繁体pdf文件：用2)的方法识别到word后，用word中的“工具”－－“语言”－－－“中文繁简转换”

2、让JPG上的文字转换到WORD中
在日常工作中,我们可能会遇到需要把扫描后的表格或文章再重新修改或排版,然而大家都知道,扫描后的文件格式是图片格式.一般情况下只有高档点的扫描仪可以直接选择扫描成PDF后者WORD格式.但是如果我们只有普通的扫描仪,而又要做到修改扫描后的文档,现在我就来教大家怎么在条件限制下,达到我们的目的.
首先我们要准备好OFFICE 2003,然后打开OFFCIE工具中的Micosoft Office Document Scanning工具,设置完后,我们就可以在需要修改的图片上右击,选择打印,然后一直下一步,知道选择打印机时,选择Micosoft Office Document Image Writer,然后将图片打印到文件扩展名为mdi格式的图片格式.打开后选择菜单工具中的"将文本发送到WORD".就是这么简单方便

3、caj文件的识别：

1）局部文字识别：直接使用caj浏览器的ocr
2）全文件识别：打印到Microsoft Office Document Image Writer打印机，后面和上面的2)操作一样
3）博硕论文全文下载：在线阅读博硕论文，待可以看到最后一页后，不要关闭caj浏览器，到caj安装目录下cache中找到一个较大的文件，拷贝到其他位置即可。然后使用2)全部转化为word。

4、超星文件的识别：

1）局部文字识别：直接使用超星浏览器的ocr
2）全文件识别：打印到Microsoft Office Document Image Writer打印机，后面和上面的2)操作一样，要注意的是，超星打印功能有点区别，因为超星是目录和全文分开的，所以打印时，需要分别把目录和正文识别到word中，在合并到一起。打印时要填入打印页码从1到最后一页，不要选择打印全部。此外在打印选项中，还要将页面比例设成真实大小，而不是整宽。注意：识别速度比其他格式要慢很多，请保持耐心，但是最后当你看到轻松的生成全本书的word版本时，你会欣喜若狂的，呵呵。我的试验结果是一本280页的书，识别需要几分钟的时间。

3）超星相对比较麻烦一些，如果还有问题，可以先把超星打印成完整的pdf文件，然后在用1、的方法转成word

5、其他情况下的识别：

使用snagit软件将任何形式的文字可以变成图片，例如使用snagit将屏幕拷贝成图片，然后右键点击图片文件，用microsoft Office Document Image打开图形，其他和2)一样。

注意：其他的各种识别软件请不要在用，因为要么只能识别中文，要么只能识别英文，要么不能识别整个文件，要么不能识别屏幕拷贝图像，要么识别误差很大，要么不能识别表格，要么需要注册，要么识别速度很慢，要么使用不便（和word结合不紧），这些软件包括：紫光ocr，万方pdfocr，尚书，汉王，ScanSoft PDF Converter，pdf2word，以及各种被推荐的软件等等，我都装过，现在都像垃圾一样删除了。只要安装了acrobat 专业版，snagit，office2003，现在你可以完美的做任何事，最重要的是这几个软件很好得到。

针对一些问题的补充：
经过一些试验，发现microsoft Office Document Image 存在一些不稳定的问题，例如在用caj打印到Microsoft Office Document Image Writer打印机时，发现用caj5.5版本比较快，（caj5.5不能加升级补丁），而caj5.0有时出现假死机。
另外页面显示大时，转化的识别率较高。
如果页数多的文件，包括超星，如果有问题，可以分多次转化。

再次补充：
1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢，并且形成的虚拟文件很大，1本200多页的书大约是60M，因此会严重影响机器的运行速度和C盘空间以及内存空间，建议配置好的机器一次转化不要超过200页，配置差的不要超过100页，同时打印时在右下角系统栏中会出现打印机图，你可以双击，看到打印任务的进度，以免以为死机了。另外转化完成后请删除c:/windows/temp目录下的虚拟打印文件，否则你的c盘很快会被用光。

2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况，可以先打印到snagit虚拟打印机，会自动生成tiff文件，速度比Microsoft Office Document Image Writer快，然后在snagit中，选择打印机为Microsoft Office Document Image Writer打印机，（相当于再打印到Microsoft Office Document Image Writer打印机），然后选择snagit---outputs下的printer，然后选择snagit----file----finish output，即可生成msi文件，其他一样。

3、caj5.5不能下载博硕论文，无法打开下载的论文，要用caj5.0下载

秒客网

抓取JPG和PDF上的文字

相关文章