pdf2alto:用于在 PDF 中查找单词边界框的软件

时间:2024-08-02 07:58:55
【文件属性】:

文件名称:pdf2alto:用于在 PDF 中查找单词边界框的软件

文件大小:12KB

文件格式:ZIP

更新时间:2024-08-02 07:58:55

Java

pdf2alto pdf2alto 是一种用于从 PDF 中提取字级边界框并在 ALTO 中呈现它们的工具。 ALTO 有点疯狂,因为它没有为 Page、PrintSpace、TextBlock 或 TextLine 提供边界框,实际上每个页面只提供一个,无论 Page 上的各个字符串如何排列。 对于我的搜索命中突出显示单个单词或单词组的用例,这已经足够了。 分词码用于分离普通英语单词,不识别电子邮件地址、域名或电话号码。 例如,它将一个带有内部句点的域名拆分为一系列单词。 跨行的单词将产生两个边界框,每个单词的一半一个,但两个字符串都将完整的单词作为它们的内容。 pdf2alto 假设 PDF 以点为单位测量距离。 它生成一个 ALTO 文件,其测量值为 1200 英寸。 这个包提供了PrintWordLocations类,它是 Ben Litchfield 的示例类Print


【文件预览】:
pdf2alto-master
----LICENSE.txt(18KB)
----src()
--------main()
----NOTICE.txt(435B)
----README.md(1KB)
----bin()
--------pdf2alto(233B)

网友评论