hocrimagemapper:用于可视化 Tesseract(或其他支持 hOCR 的 OCR 引擎)的 hOCR 输出的工具

时间:2024-07-24 20:14:35
【文件属性】:

文件名称:hocrimagemapper:用于可视化 Tesseract(或其他支持 hOCR 的 OCR 引擎)的 hOCR 输出的工具

文件大小:1.3MB

文件格式:ZIP

更新时间:2024-07-24 20:14:35

C#

这个简单的应用程序提供了一种可视化 hOCR 输出的方法。 根据*:“hOCR 是从光学字符识别 (OCR) 获得的格式化文本的数据表示的开放标准。该定义使用可扩展标记语言 (XML) 的形式对文本、样式、布局信息、识别置信度指标和其他信息进行编码超文本标记语言 (HTML) 或 XHTML。” ( ) hOCR 由 Tesseract、Cuneiform 和 OCRopus OCR 软件生成。 此应用程序已实现为用 C# 编写的简单 WinForms 应用程序(是的,我知道,但它很快)。 使用该应用程序时,包含在 hOCR 文件中的文本与作为 OCR 输出源的图像一起加载。 将鼠标悬停在文本中的单词上会突出显示图像中的单词。 单击文本中的一个词会显示用于突出显示该词的边界框的坐标。 (这个边界框是从 hOCR 输出中提取的)。 坐标显示为两对 XY 坐标,代表边界框的右上


【文件预览】:
hocrimagemapper-master
----hOcrImageMapper()
--------Form1.Designer.cs(8KB)
--------Program.cs(433B)
--------hOcrImageMapper.csproj(4KB)
--------Form1.cs(6KB)
--------TextPage.cs(165B)
--------Form1.resx(6KB)
--------Parser.cs(4KB)
--------App.config(182B)
--------TextLine.cs(166B)
--------TextWord.cs(252B)
--------Properties()
----.gitignore(2KB)
----hOcrImageMapper.sln(1KB)
----Releases()
--------v.1()
----SampleData()
--------mobot31753003505978_0014.jpg(849KB)
--------mobot31753003505978_0014.html(34KB)
----README.md(1KB)
----.nuget()
--------NuGet.exe(1.59MB)
--------NuGet.Config(164B)
--------NuGet.targets(7KB)
----.gitattributes(2KB)

网友评论