文件名称:webscraping_indexing:通过Lucene索引网络抓取的数据
文件大小:149KB
文件格式:ZIP
更新时间:2024-04-07 05:34:43
Java
webscraping_indexing
正在安装
要运行代码,首先需要克隆存储库。
git clone https://github.com/abdelrahim-hentabli/webscraping_indexing.git
编译并运行
要在Linux系统上进行编译,请转到主目录并运行compile.sh文件。您可能需要授予其执行权限,
chmod +x compile.sh
您需要导出PATH_TO_LUCENE变量以使编译正确运行
export PATH_TO_LUCNE=
【文件预览】:
webscraping_indexing-main
----.gitignore(348B)
----src()
--------HadoopQuery.java(2KB)
--------ArrayListTextWritable.java(2KB)
--------server()
--------CSVNLineInputFormat.java(5KB)
--------HadoopIndex.java(7KB)
--------LuceneQuery.java(4KB)
--------LuceneIndex.java(3KB)
--------CSVLineRecordReader.java(9KB)
--------Pair.java(142B)
----Phase1 Project Report.pdf(113KB)
----README.md(597B)
----main()
--------hadoop_index.sh(91B)
--------tweepy_scraping()
--------compile.sh(336B)
--------query.sh(260B)
--------lucene_index.sh(245B)
--------index.lucene()