文件名称:新浪微博数据挖掘方案
文件大小:848KB
文件格式:PDF
更新时间:2015-05-28 07:15:03
新浪微博 数据挖掘 方案
随着新浪微博用户群体的增长, 新浪微博的数据获 取是微博研究首先需要解决的问题。该文提出了基于新浪 微博API 与基于页面解析的新浪微博数据获取方案。程序 逻辑控制API 调用方法与频率, 获取JSON 对象并解析实现 高效数据获取。同时将传统的网络爬虫结合网页解析技术 结合API 同时使用, 解决了因API 接口开放不完善, 且因在 返回结果数量上限与调用频率方面的限制, 导致不能有效实 现新浪微博数据的全面获取的问题。经过实验测试, 通过2 套方案的结合可以实现新浪微博数据高效全面的获取。