solr6.6 索引 word文档

时间:2022-03-27 06:16:30

  本文是solr6.6 导入 pdf/doc/txt/json/csv/xml文件 的继续,上篇在索引文件,唯独07格式的word文档不能正常抽取数据,进过研究测试终于,记录下属过程。

  其它步骤基本和solr6.6 导入 pdf/doc/txt/json/csv/xml文件一样,不同的地方如下:

  1、配置solrconfig.xml不同,改为如下:

    增加两个引用

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
  <lib dir="./lib" regex=".*\.jar"/>

 

   solr6.6 索引 word文档

 

    因为在导入过程中用到了下面两个jar包

    solr6.6 索引 word文档

    因为在text字段中涉及到中文分词,要用到下面两个jar包,所以单独放在test下面lib(该文件夹下只有两个文件,和上次的不同)文件夹下面

    solr6.6 索引 word文档

    data-config.xml文件内容:

    solr6.6 索引 word文档

    导入文件:

    solr6.6 索引 word文档

    导入结果:

    solr6.6 索引 word文档

    同样,xls/xlsx/ppt/pptx类型的文件索引方式和word一样