文件名称:mycrawler:这是DieselNiu的爬虫和ES数据分析的实例
文件大小:22KB
文件格式:ZIP
更新时间:2024-05-02 10:24:09
Java
mycrawler - 一个简单的网络爬虫小例子 About the project 这是一个特别针对的多线程的网络爬虫,并可以用Elasticsearch新闻搜索引擎实现了快速的文本内容搜索. Build With 项目原则 使用Git进行版本控制,使用Github+主干分支模型进行开发,禁止直接push到主干分支,所有的变更都要小步提交 PR 至 Github 主分支. *用 Maven 进行依赖包的管理,用自动化代码质量检查工具 CircleCI 进行自动化测试,在生命周期绑定 Checkstyle、SpotBugs 插件保证代码质量。 使用 Flyway 自动迁移工具完成数据库初始化建表及添加原始数据工作,用 MyBatis 实现数据与 Java 对象的关系映射,对 MySQL 数据库进行索引优化,使百万级新闻内容的查找效率提升近 2 倍。 采用多线程完成爬虫任务,提高爬取效率约
【文件预览】:
mycrawler-main
----.gitignore(324B)
----src()
--------main()
--------test()
----LICENSE(11KB)
----pom.xml(7KB)
----README.md(2KB)
----.circleci()
--------checkstyle.xml(1KB)
--------config.yml(473B)