文件名称:linux平台GCC提取docx,doc,xls,xlsx,ppt,ppts,pdf,eml,html等文件内容文本
文件大小:7.96MB
文件格式:ZIP
更新时间:2022-01-21 12:05:24
linux GCC OFFICE/PDF文件内容提取
按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 压缩文件 ".zip", 注:默认提取前5个文件
【文件预览】:
graccvs.so
test
----graccvs文件正文提取接口.pdf(213KB)
----Adobe Intro.ofd(646KB)
----简可信模板OCR识别工具帮助.docx(399KB)
graccvsSoTest.c
示例使用说明.txt
graccvs.h