参考:
http://www.cnblogs.com/cnlian/p/5765871.html
http://www.cnblogs.com/wzben/p/5930538.html
1、下载 Tesseract-OCR 及对应版本的 chi_sim.traindata 字库。
一定要对应否则会报错。错误信息为:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53"
2、打开cmd,打开图片所在文件夹,输入命令:tesseract in.png out -l chi_sim
,
在图片所在文件夹下生成名字为out的txt文件。
命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng。
字库训练
之前是打算字库训练,后来发现下载的字库还是比较完善的,就简单记录下。
下面是训练所有的cmd命令。chi.newchi.exp0.tif为自己转换的图片名字
tesseract chi.newchi.exp0.tif chi.newchi.exp0 -l chi_sim batch.nochop makebox
tesseract chi.newchi.exp0.png chi.newchi.exp0 nobatch box.train
unicharset_extractor chi.newchi.exp0.box
shapeclustering -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr
mftraining -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr
cntraining chi.newchi.exp0.tr
rename normproto newchi.normproto
rename inttemp newchi.inttemp
rename pffmtable newchi.pffmtable
rename unicharset newchi.unicharset
rename shapetable newchi.shapetable
combine_tessdata newchi.
tesseract chi.newchi.exp0.png chi.newchi.exp0 -l newchi