文件名称:java-mammoth:将Word文档转换为简单干净HTML
文件大小:319KB
文件格式:ZIP
更新时间:2024-05-26 12:44:52
Java
猛mm象.docx到Java / JVMHTML转换器 Mammoth旨在转换.docx文档(例如由Microsoft Word,Google Docs和LibreOffice创建的文档),并将其转换为HTML。 Mammoth的目标是通过使用文档中的语义信息并忽略其他细节来生成简单干净HTML。 例如,猛mm象会将Heading 1样式的任何段落转换为h1元素,而不是尝试完全复制Heading 1的样式(字体,文本大小,颜色等)。 .docx使用的结构与HTML的结构之间存在很大的不匹配,这意味着对于较复杂的文档而言,这种转换不太可能是完美的。 如果仅使用样式在语义上标记文档,则猛mm象效果最好。 当前支持以下功能: 标题。 清单。 从您自己的docx样式到HTML的可自定义映射。 例如,您可以通过提供适当的样式映射将WarningHeading转换为h1.warning 。