环境 windows
需要的软件
装了一定软件以后就可以用cmd命令 解析图片了 不过不是很准 第二个软件是用来训练第一个软件的
准备一张验证码试试
打开命令行试试
还行
换一个
不行了
用第二个软件训练一下看看效果
第一步双击train.bat
第二步 生产tif文件
ctrl+m 选择图片 要jpeg格式的可以多个图片生成一个tif文件也可以一个图片生成一个 随意
起个名字保存
第三步生成.box文件 先进入 test2.tif文件所在位置 输入命令 tesseract test2.tif test2 batch.nochop makebox
修改box文件
接下来命令照着打就行了从别人那里粘过来一段
生成字符特征文件。在cmd中键入:tesseract test2.tif test2 nobatch box.train,这一步将生成两个文件,test.tr(特征文件)和test.txt。
5.计算字符集(unicharset)。在cmd中键入:unicharset_extractor test2.box,这一步产生字符集文件unicharset
6.聚集字符特征(inttemp、pffmtable、normproto)。命令:mftraining -F font_properties -U unicharset test.tr,其中font_properties需要自己创建,文件内容:<fontname><italic><bold><fixed><serif><fraktur>。
where<fontname>is a string naming the font (no spacesallowed!), and<italic>,<bold>, <fixed>, <serif> and <fraktur>are all simple 0 or 1 flags indicating whetherthe font has the named property。
这是我的font_properties内容:test2 0 0 0 0 0,大概意思为普通标准字体。这块注意test2要与tif和box文件名一致 上面那段英文就是这5个0的含义大概就是什么字体是不是斜体、粗体什么的
根据上一步产生的字符集文件unicharset,来生成当前新语言的字符集文件mfunicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符特征数文件pffmtable。附带还会产生Microfeat文件,但是这个文件没啥用。
接下来使用命令cntraining test.tr,这一步产生字符形状正常化特征文件normproto。 到这里基本上所需的文件都形成了,下面就开始生成字典文件。
7.合并训练文件(*.traineddata)。此时在目录下应该生成若干个文件了,把unicharset,inttemp,normproto,pffmtable这四个文件加上前缀”test2font.“然后使用命令:combine_tessdata testfont2.将其合并成一个字典文件
最后把生成的test2font.traineddata放到D:\Tesseract-OCR\tessdata文件夹下然后用训练过的字库在识别下
命令 tesseract 12.jpeg 12n -l test2font
还行