文件名称:zhihu-selenium:使用Selenium抓取www.zhihu.com个人数据
文件大小:68KB
文件格式:ZIP
更新时间:2024-05-18 09:08:41
Java
zhihu-selenium crawl personal data using selenium 接下来要做的功能 将用户自己创建的收藏夹中文章或答案爬取下来 设计爬取队列,将自己创建的所有收藏夹中文章和答案爬取下来 维护答案、文章及收藏夹之间关联关系 关注的收藏夹和自己创建的收藏夹页面布局相似度99%,可以重构代码 爬取关注的问题下面的答案 开发设计及约定 数据结构约定 知乎相关的原始数据存储的表以zhihu为前缀 为了爬取知乎内容而设计的队列等调度相关的表,队列以que_为前缀 如果要进行数据的跨库抽取,相应的表以etl_为前缀 java包 跟知乎相关的,放在com.yan.zhihu包下 如果数据的存储方式为mysql,则相应的代码放在com.yan.zhihu.mysql包下 (同理,如果是存储方式为mongodb,则应该放在com.yan.zhihu.mongo包下) 数据结
【文件预览】:
zhihu-selenium-master
----pom.xml(2KB)
----LICENSE(1KB)
----src()
--------main()
----doc()
--------zhihu-tables-mysql.sql(1KB)
----README.md(980B)