文件名称:hocr2pdf:拍摄扫描图像,并从tesseract输出结果,创建PDF。 就是这样
文件大小:1.02MB
文件格式:ZIP
更新时间:2024-06-01 00:24:37
JavaScript
hocr2pdf 获取一个hocr文件(从Tesseract / Omnipage / ABBYY FineReader之类的输出)并与图像合并以创建可搜索的PDF文件。 从2015年8月ocr_line ,在将单词/ bbox转换为正确方向时,还将利用ocr_line类span的textangle值。 我认为只有更新版本的Tesseract才能正确利用此功能,运行类似以下内容的示例生成hocr文件: > tesseract.exe infile.tif outfile -psm 1 hocr 使用绘制PDF文件。 利用进行HTML解析。 var fs = require ( 'fs' ) var PDFDocument = require ( 'pdfkit' ) var sharp = require ( 'sharp' ) // http://sharp.dimens.i
【文件预览】:
hocr2pdf-master
----README.md(4KB)
----test()
--------tests.js(3KB)
----papersizes.js(2KB)
----package.json(318B)
----index.js(8KB)
----test.js(2KB)
----samples()
--------180.png(189KB)
--------180_hocr.html(63KB)
--------90_hocr_no_head.html(43KB)
--------a4portrait.png(94KB)
--------90_up.png(389KB)
--------a4portrait.html(18KB)
--------90.png(391KB)
--------no_pg_dmns.html(88B)