文件名称:SinaWeiboCrawler:新浪微博主题爬虫
文件大小:185KB
文件格式:ZIP
更新时间:2024-05-19 07:30:31
Java
项目说明 爬取新浪微博用户数据,为用户画像、情感分析和关系建模等提供结构化数据。 项目依赖的第三方库 HTTPClient Jsoup :解析HTML fastjson 程序核心逻辑: 在 useVersion2014/WeiboCrawler3.main() 中,WeiboCrawler3的实例对象crawler调用crawl()爬取原始数据后存在文件里,剩余代码再解析磁盘上的文件进行抽取和转换得到最后的数据。 crawl()是执行爬取动作的具体函数 String html = crawl.getHTML(url) //根据url获取网址 crawler.isVerification(html) //判断是否需要输入验证码 如果连接超时重新连接 新浪微博模拟登录逻辑 Sina.main() Sina.login(username,passwprd) preLogin(encodeAcco
【文件预览】:
SinaWeiboCrawler-master
----.project(374B)
----src()
--------cn()
----git_push_all_projects_in_pwd_LOG.txt(10KB)
----[重要][模板]爬虫项目.vsdx(69KB)
----.idea()
--------misc.xml(258B)
--------workspace.xml(23KB)
--------modules.xml(270B)
--------vcs.xml(167B)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.core.resources.prefs(55B)
----README.md(3KB)
----WeiboCrawler2.2.iml(1KB)
----.classpath(883B)
----bin()
--------cn()