Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

时间:2021-06-19 13:07:59
【文件属性】:

文件名称:Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

文件大小:20.22MB

文件格式:ZIP

更新时间:2021-06-19 13:07:59

OCR Tesseract tessdata traineddata eng.trainedd

新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件 可自己训练. 1. 样本图片准备 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片 3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件: 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件 在终端中执行以下命名: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件 在终端中执行以下命令: unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件 在终端中执行以下命令: combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7


【文件预览】:
tyA.traineddata
configs
----kannada(101B)
----quiet(21B)
----api_config(26B)
----ambigs.train(146B)
----pdf(46B)
----bigram(129B)
----hocr(64B)
----digits(37B)
----box.train.stderr(355B)
----txt(166B)
----lstm.train(328B)
----tsv(46B)
----box.train(355B)
----logfile(25B)
----linebox(70B)
----strokewidth(377B)
----inter(59B)
----makebox(26B)
----rebox(65B)
----unlv(46B)
tessconfigs
----matdemo(243B)
----batch(50B)
----segdemo(329B)
----nobatch(1B)
----batch.nochop(37B)
----msdemo(402B)
ty180201.traineddata
ty.traineddata
ty1.traineddata
eng.user-words
eng.traineddata
osd.traineddata
eng.user-patterns
pdf.ttf

网友评论

  • 可以使用 正规的字符都支持