几个方便的基于es 的开源文档索引系统
Apache Tika
比较有名的内容提取工具
FsCrawler
使用java 开发,内部使用了Tika
Ambar
nodejs,python应用
开发,
轻量,支持基于docker 的快速部署,同时支持各种文档类型,ocr。。。。
参考资料
https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/
比较有名的内容提取工具
使用java 开发,内部使用了Tika
nodejs,python应用
开发,
轻量,支持基于docker 的快速部署,同时支持各种文档类型,ocr。。。。
https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/