文件名称:Nutch-NewsClassify:基于nutch的新闻分类系统
文件大小:8.41MB
文件格式:ZIP
更新时间:2024-03-31 09:14:39
系统开源
## Nutch2.3.1新闻分类爬虫 内容 项目介绍 本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis进行数据存储层处理,使用清华大学自然语言处理实验室推出的中文文本分类工具包来做文本分类的工作,形成一个可以对新闻进行分类的爬虫。对本项目中的训练模型文件进行替换,可以很容易实现一个分布式主题爬虫系统。对xautlx在我开发过程中提供的帮助在此一并谢过。 ##配置文件下载下来的代码后进入apache-nutch-2.3.1目录,项目替换的mongodb,mysql,solr都是本地配置的,如果不是在本地配置的,则需要修改配置文件。 conf / gora.properties中,如果mongodb不是在本