zhihu-selenium:使用Selenium抓取www.zhihu.com个人数据下载

【文件属性】：

文件名称：zhihu-selenium:使用Selenium抓取www.zhihu.com个人数据

文件大小：68KB

文件格式：ZIP

更新时间：2024-05-18 09:08:41

Java

zhihu-selenium crawl personal data using selenium 接下来要做的功能将用户自己创建的收藏夹中文章或答案爬取下来设计爬取队列，将自己创建的所有收藏夹中文章和答案爬取下来维护答案、文章及收藏夹之间关联关系关注的收藏夹和自己创建的收藏夹页面布局相似度99%，可以重构代码爬取关注的问题下面的答案开发设计及约定数据结构约定知乎相关的原始数据存储的表以zhihu为前缀为了爬取知乎内容而设计的队列等调度相关的表，队列以que_为前缀如果要进行数据的跨库抽取，相应的表以etl_为前缀 java包跟知乎相关的，放在com.yan.zhihu包下如果数据的存储方式为mysql，则相应的代码放在com.yan.zhihu.mysql包下（同理，如果是存储方式为mongodb，则应该放在com.yan.zhihu.mongo包下）数据结

立即下载

【文件预览】：
zhihu-selenium-master
----pom.xml(2KB)
----LICENSE(1KB)
----src()
--------main()
----doc()
--------zhihu-tables-mysql.sql(1KB)
----README.md(980B)

秒客网

zhihu-selenium:使用Selenium抓取www.zhihu.com个人数据

网友评论

相关文章