文件名称:office-text-extractor:另一个库可从MS Office和PDF文件提取文本
文件大小:978KB
文件格式:ZIP
更新时间:2024-05-26 23:40:31
pdf parser xlsx text-extraction ms-office
从MS Office和PDF文件中提取文本 另一个库可从MS Office( docx , pptx , xlsx )和PDF( pdf )文件中提取文本。 相似的图书馆 还有其他出色的图书馆也做同样的工作,并激发了这个项目的灵感,例如: 这与其他文本提取工具有何不同 根据mime类型而不是文件扩展名分析文件 不产生子进程以使用设备上安装的工具 如果是简单文本文件,则从文件读取并返回文本 使用的图书馆 该模块使用了一些令人惊叹的现有库,它们的性能比该模块中最初存在的库要好,因此可以代替使用: ,用于解析PDF文件 ,用于解析MS Excel文件 该模块还使用: 将MS Office XML文件转换为JSON 将JSON转换为YAML -检测文件的MIME类型 -解压缩文件 -从大文件读取数据块 非常感谢这些项目的贡献者。 安装 要在npm项目中使用它,只需键入: np
【文件预览】:
office-text-extractor-main
----package.json(1KB)
----.github()
--------workflows()
----.prettierrc(126B)
----.prettierignore(14B)
----tests()
--------tests.js(5KB)
--------files()
----package-lock.json(116KB)
----.npmignore(29B)
----LICENSE.md(712B)
----.gitignore(14B)
----lib()
--------index.js(3KB)
--------parsers()
----README.md(4KB)
----.gitattributes(18B)