文件名称:hocr-tools:通过将hOCR格式嵌入HTML来处理和评估hOCR格式以表示多语言OCR结果的工具
文件大小:1.46MB
文件格式:ZIP
更新时间:2024-05-21 06:42:28
Python
手工具 check-检查hOCR文件中的错误 多个hOCR文件中的页面合并到一个文档中 页面横向(水平)切成两页 hocr-eval-计算分段数和OCR错误 hocr-eval-geom-计算上,下和错误分段 hocr-eval-lines-计算hOCR输出相对于文本地面真相的OCR误差 hocr-extract-g1000-从Google 1000图书样本中提取行 hocr-extract-images-提取所有ocr_line元素中的图像和文本 hocr-lines-提取所有ocr_line元素内的文本 hocr-merge-dc-将Dublin Core元数据合并到hOCR HTML标头中 hocr- pdf-从一堆hOCR和JPEG创建可搜索的PDF hocr-split-将hOCR文件拆分为单独的页面 hocr-wordfreq-计算hOCR文件中的单词频率 单元测试 运行完
【文件预览】:
hocr-tools-master
----Dockerfile(512B)
----.gitignore(42B)
----setup.cfg(40B)
----hocr-pdf(7KB)
----README.md(8KB)
----hocr-split(1KB)
----hocr-cut(3KB)
----hocr-combine(787B)
----hocr-extract-images(3KB)
----test()
--------testdata()
--------.gitignore(6B)
--------hocr-pdf()
--------hocr-split()
--------hocr-cut()
--------hocr-combine()
--------hocr-extract-images()
--------hocr-wordfreq()
--------hocr-check()
--------hocr-merge-dc()
--------hocr-eval-lines()
--------hocr-eval()
--------hocr-lines()
--------hocr-eval-geom()
--------smoke.tsht(190B)
--------tsht(618B)
----hocr-extract-g1000(5KB)
----hocr-wordfreq(2KB)
----LICENSE(557B)
----hocr-check(5KB)
----hocr-merge-dc(2KB)
----hocr-eval-lines(3KB)
----hocr-eval(7KB)
----hocr-lines(570B)
----hocr-eval-geom(4KB)
----requirements.txt(43B)
----setup.py(1KB)
----.travis.yml(322B)