此软件为原创软件。
PDF批量ocr识别以及图片批量识别工具!
支持多次,多pdf,图片批量ocr,不限量识别!
目标:批量ocr需求的人士。大大提升工作学习效率。
工作和学习过程中,会遇到很多扫描件,无法复制造成学习和生产力效率低下。我们可以通过批量ocr解决这个困扰!转换成可复制的文字,便于整理,修改,笔记。。
OCR3000 v1.53版下载地址:
1
链接: https://pan.baidu.com/s/1NroV2zx1Gbjol1yEwSD9vw
提取码: ksf4
2
https://wws.lanzoui.com/b0267lwhg
密码:agct
需要获得百度的key密钥,即注册一个百度ai账号,(如果有百度网盘账号扫码就行)软件设置中输入ocr普通版的秘钥,就可以用啦!
方法:
如何使用百度智能云OCR获取APIKey和SecretKey_Maple-CSDN博客blog.csdn.net
如何申请百度文字识别apikey和Secret Keyblog.csdn.net
具体功能如下
基础版:
1 扫描pdf转txt 批量ocr,输出txt 准确率98%-100% 看扫描件的质量越高识别率越高。
2 识别后的txt文件排版优化,消除非段落换行,首行缩进。
3 非扫描pdf转txt (ocr方式)
4 pdf输出同时,保存json,方便二次制作。
5 扫描pdf 批量ocr,输出txt和Pdf,并且保留原pdf书签目录 扫描件质量越高识别率越高最高100%
6 输出的pdf完美匹配 ipad 手机 电纸书 任意调整每一行的字数。
7 错误日志记录
8 所有ocr都将另保存为json格式,以后可以任意定制pdf版式 比如字体 字号 行间距 字数
高级版(逐步开放)
1 动态查看任务识别进度
2 图片批量导入 ocr输出txt 和pdf
3 识别双栏排版。
4 识别三多栏排版。
5 识别不规则排版,并重排。
6、智能重排功能。
7、人工智能识别段落,标题,章节标题目录,页码,文档中图片。并重排。
8 任意类型的图片可以ocr
9 人工智能识别后导出word格式
10 根据json元数据创建pdf
11 本地ocr引擎
ocr3000优势:
1、pdf,图片的批量ocr:
批量识别,实现了大批量转换,工作学习效率大大提高。
2、识别率高:
利用百度提供的api接口,实现了98%-100%的识别正确率。
使用方法:
下载后解压缩文件,双击ocr3000.exe运行软件。
点击“设置”,输入百度的两个key文件。 key的获取方法见上文。
拖动需要识别的pdf到上方窗口,点击右侧的pdf---pdf或者pdf--txt按钮。
同理 图片的批量识别方法相同,拖动图片到上方窗口,点击pdf-txt 或者pdf-pdf完成图片的识别(一按钮多用途)
旁边的小黑框可以显示每一步的进度提示。
制作完成后,右侧下方有四个查看按钮,可以打开识别完成的目录。
识别完成的文件分为两个,一个是未进行排版优化的原版txt,一个是优化排版后的txt,方便用户选择使用。
识别前:
识别后的pdf,全转换成文字了,这样可以整本书搜索了! 很方便!:
同时会保存一个原版txt和优化后的txt,可以轻量化阅读,做笔记:
输出的pdf可以设置:
有三种输出可以勾选,我默认给大家做了一个28字每行的格式。
剩下两种按需勾选,可以设置成用户自己喜爱的格式。比如每行21个字。
然后勾选前面的复选框,点确定,重启软件即可生效。
精度设置:
全自动无损提取pdf中的图片
无法无损提取的图片则进行有损导出,设置如下:
设置-导出图片清晰度 默认是4 一般选用1-4 数字越大,ocr之前导出的每张图片越清晰,但导出速度越慢。反之越小,导出的图片越模糊,但速度快。
txt优化排版:同理,拖动待处理txt文件到上方窗口,点右侧“txt优化排版”即可。
可以首行缩进,可以取消段落换行。
优化后的效果如下:
Win10用户注意:
假故障:
程序进行ocr等任务时,cmd界面(小黑框)会卡死,这时候用鼠标点一下小黑框(cmd界面),单机回车,则继续处理。
原因:
由于win10的cmd开启了快速编辑模式,导致鼠标一点黑框就暂停了。
解决方法:
点击cmd黑框右上角-默认值-取消勾选“快速编辑模式” ,重启程序 即可!