文件名称:tesseract安装包及JAVA代码实例
文件大小:5.55MB
文件格式:7Z
更新时间:2015-06-07 17:46:49
OCR tesseract JAVA代码
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。本文主要介绍其中的一种tesseract识别技术
【文件预览】:
tesseract-ocr-install
----tesseract-ocr-setup-3.01-1.exe(3.75MB)
----verify.traineddata(301KB)
----安装说明.doc(80KB)
tesseractORC
----bin()
--------com()
----.settings()
--------org.eclipse.jdt.core.prefs(629B)
----src()
--------com()
----.project(388B)
----temp.jpg(1KB)
----.classpath(510B)
----lib()
--------swingx-1.0.jar(1.21MB)
--------jai_imageio-1.1-alpha.jar(729KB)