文件名称:JavaProject-Crawler-Elasticsearch:多线程爬虫与Elasticsearch搜索引擎的项目实战
文件大小:23KB
文件格式:ZIP
更新时间:2024-04-17 04:04:28
Java
项目:多线程爬虫与Elasticsearch搜索引擎的项目实战 1,内容: 概要:用Java编写一个多线程爬虫,完成HTTP请求,模拟登录,Cookie保存,HTML解析等工作。在得到数据后,将数据存储到H2数据库,通过Flyway将建表等操作自动化。当数据大到一定规模后,使用弹性拱处理和分析数据,并完成一个简单的搜索引擎。 任务点: 版本1:使用Maven进行包管理,使用CircleCI进行自动化测试,在生命周期绑定Checkstyle,SpotBugs插件保证代码质量。使用Flyway工具完成数据库初始化建表并添加原始数据工作 版本2:每个类的逻辑尝试的少,将版本1的代码进行分解,分成一个独立的模块(高内聚,低转化)通过ORM(对象关系映射) 注意1:代码要小步迭代的更新 2,建立: 建立GitHub仓库并克隆到本地: # 后期建议使用SSH git clone https://gi
【文件预览】:
JavaProject-Crawler-Elasticsearch-main
----.gitignore(305B)
----src()
--------.DS_Store(6KB)
--------main()
--------test()
----LICENSE(11KB)
----pom.xml(6KB)
----README.md(1KB)
----.circleci()
--------checkstyle.xml(1KB)
--------config.yml(473B)