本文是solr6.6 导入 pdf/doc/txt/json/csv/xml文件 的继续,上篇在索引文件,唯独07格式的word文档不能正常抽取数据,进过研究测试终于,记录下属过程。
其它步骤基本和solr6.6 导入 pdf/doc/txt/json/csv/xml文件一样,不同的地方如下:
1、配置solrconfig.xml不同,改为如下:
增加两个引用
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" /> <lib dir="./lib" regex=".*\.jar"/>
因为在导入过程中用到了下面两个jar包
因为在text字段中涉及到中文分词,要用到下面两个jar包,所以单独放在test下面lib(该文件夹下只有两个文件,和上次的不同)文件夹下面
data-config.xml文件内容:
导入文件:
导入结果:
同样,xls/xlsx/ppt/pptx类型的文件索引方式和word一样