文件名称:Content-extraction-and-search-using-Apache-Tika:在此作业中,您将参与一项持续的工作,从 http 发布的就业机会中搜索工作数据
文件大小:225KB
文件格式:ZIP
更新时间:2024-07-31 01:40:55
Java
内容提取和搜索使用 Apache-Tika 使用来自 DARPA XDATA 的 Apache Tika for Employment 数据集构建了一个内容提取和一个本地搜索引擎。 通过清理和转换数据并开发用于对职位发布进行排名的算法来构建该项目。 使用 Tika 开发了一个爬虫来遍历就业数据集以显示相关的职位发布。
【文件预览】:
Content-extraction-and-search-using-Apache-Tika-master
----TIKA()
--------src()
--------App.properties(93B)
--------run.sh(313B)
--------run.bat(297B)
--------lib()
--------README.txt(624B)
----README.md(426B)
----ETL()
--------headers.txt(191B)
--------run_ETL_job.py(4KB)
--------README.txt(570B)