什么是标记 PDF(Tagged PDF)?
标记 PDF 是一种包含额外信息的 PDF 文件,这些信息用于定义文档的结构(如文本流、标题、表格、段落等)。这非常有用,因为它可以使内容更加可访问(文本流明确定义后,可以用于屏幕阅读器朗读),同时也便于内容的重用和处理。标记 PDF 文件的内容可以通过许多库(包括我们的 JPedal PDF 库)提取为 XML/HTML。
所有 PDF 文件都是标记 PDF 吗?
很遗憾,并不是。目前只有大约 20% 的 PDF 文件是标记 PDF,而其余的大部分文件在可用性方面要差得多。标记 PDF 只能在创建 PDF 文件时启用,无法在之后添加。过去,人们反对标记 PDF 的理由是它会使文件体积稍大一些。但在当今存储空间以 TB 计算的时代,相比于文件略小,标记 PDF 带来的可访问性、可搜索性和可重用性价值显然更重要,因此这个理由已经不再成立。
哪些 PDF 创建工具可以生成正确的标记 PDF?
LibreOffice、Microsoft Office、InDesign 和 Acrobat 都可以创建标记 PDF 文件(但需要确保已启用相关设置)。如果您想检查自己的 PDF 文件是否包含标记内容,可以阅读我们的文章 《如何判断 PDF 文件是否具有结构化内容》。
请使用标记 PDF 文件!
我们强烈建议 始终 创建标记 PDF 文件。即使您现在觉得无所谓,但在未来,它会让您的 PDF 文件更容易使用。
我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions