行业数据获取

时间:2022-02-08 16:53:30

对这个话题好奇,网上找到些零零碎碎的东西夹杂个人看法,在这里积累,主要是围绕:

如何获取数据:

  1. 有一个10万-20万的样本库,每年给他们钱,在电脑上安装一个软件,可以监测他们所有的互联网使用行为;有样本库的第三方网站来帮你筛选样本;
  2. 市场上有很多第三方的流量监控软件,也有很多公司使用这些软件,够购买他们的原始数据,作为分析使用;
  3. 购买行业咨询报告、年鉴、权威书报;
  4. 爬虫(开放平台API才是王道,爬数据仅在急需某些特殊数据,难以手工搞定的情况下才做。不适合用于生产环境,别人改一点点东西,你也得跟着改。就像和12306对搞的抢票插件一样,天天守着,比的就是精力。。);

如何爬数据:

就单纯的爬网页相当简单,只要会解析即可。大致步骤无非就是:1.获取网页内容——>2.解析获得想要的东西。

如果服务器端有防止程序乱来的话,估计要伪造请求头,主要是User-Agent。一些特殊情况要注意加:

  1. Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
  2. 统计数据肯定是要登录了之后才会有;(pyV8可以做些JS操作,如果是单机爬虫的话,登陆后用浏览器cookie就可以避免在python里写登陆,对某些有验证码和登陆麻烦的网站很好用)这样的话,要用到cookies.Python的urllib以及Java的Httpclient都支持的。
  3. 目前很难解决的就是有些网页是经过javascript渲染的。要用headless webkit 之类的模拟工具, selenium / capserjs / phantomjs。
  4. 解析方面,简单的用正则表达式,复杂的用dom分析(如jquery/html parser等github上一大堆类库)。譬如我这段用来分析知乎的收藏夹:https://github.com/unogz/izhihu/blob/develop/src/modules/collection.js#L56     用基于webkit的工具就ok了,如 其他简易的就多的去了: 参见我之前的一个答案: 如何在前端自动化测试中模拟用户的操作?
  5. 不一定要硬磕电脑版网页,可以试试手机版网页。如微博,weibo.com 和 weibo.cn 登录就不一样,weibo.cn登录就简单多了,不像电脑版的各种加密。

在缺乏完整数字的前提下做行业分析,偷懒和最快的方法是看行业老大和老二:

  1. 从行业老大老二的年报(如果是上市公司)、网站、申请和公开的专利、以往业务交手中拿到的资料,提炼出需要的数据;
  2. 从行业老大老二的技术路线、产品路线来预知行业技术和产品发展趋势;
  3. 把视野放在全球看,然后中国看;

微博分析工具:

新浪官方微博评测工具:www.weiboreach.com 缺点:开放次数太有限~
(1)传播影响:这条微博有多大的微力?它的传播产生了怎样的影响?人们的情绪是积极还是消极?
(2)人群里的声音:传播过程中,针对这条微博,大家说的最多的是?哪种声音音量最大? (3)关键人物:一定有起了关键传播作用的人物,他们的微博昵称是?也许你正在关注他们传播人群分析:
(4)谁在传播过程中凑了热闹,他们来自哪里?他们的性别?他们加V了吗?达人、草根的比例?
————————
2012.07.03补充,引用刚刚看到的一篇文章,很全面:
粉丝分析:
1.微数据(新浪自带)
2.关注查询(可查询活跃粉丝、僵尸粉等)
3.绿佛罗 (可更好互粉)
4微博分析家(t .468a.com)
5.粉丝工具箱
综合管理:
1. 孔明社交管理
2. 周博通微博管家
3. 微博大师(www.weibomaster.com)收费
4. 众趣(www.social-touch.com
5. 微博易 (www.weiboyi.com
微博桌面客户端:
1. 微博桌面
2. 微博AIR
3. wing微博
单条微博分析:
1.独到科技(分析单条微博转发,推荐。地址:www.doodod.com
2.北京大学PKUVIS (分析单条微博转发,推荐。地址:vis.pku.edu.cn/weibova
3.补充一个叫做知微的工具,听说也很不错。
微博长文字:
1. www.bigweibo.com
2. cwb.jaeer.com
3. www.taichangle.com
4. www.changweibo.com
定时器:
很多人或许只知道皮皮时光机,其实还有还有很多定时的应用
1. 皮皮时光机
2. 时光机
3. 定时V
4. 定时showone
5. 周博通微博管家,同时也有定时微博功能(www.chouboto.com
6. 月光宝盒,同时也有定时微博功能(wei.ci123.com
7. 孔明社交管理,同时也有定时微博功能(www.kmsocial.cn
内容库:
含有大量的内容
1. 皮皮时光机
2. 月光宝盒
多平台发布:
1. 享拍微博通(www.wbto.cn/
2. yibo微博
3. Fewave(chrome插件)
补充:另外在Iphone和Android 平台上还有些应用

无偏见数据挖掘:

有许多数学工具可以帮助我们发现数据之间的关系,但大多数需要先验知识。如果你是从一张白纸开始,那么问题会变得十分困难。现在,MIT、哈佛和布洛德研究所的研究人员在《科学》上的发表了一篇论文,提出了无偏见的数据挖掘技术,不需要先验假设就能寻找出大数据集中变量之间的关系,即没有偏见的数据挖掘。详见:http://web.mit.edu/newsoffice/2011/large-data-sets-algorithm-1216.html

如何判断一个 iOS 应用是不是在刷榜?或者是被刷榜?

  1. 看曲线,第三方的数据分析平台:www.ann9.com (这个可以检测到每天中下降最大上升最大的app,一般都是刷榜单)或者www.appfigures.com
  2. 看差评;

 

 

做行业数据分析,数据不完整是必然,应从以下几点考虑:

  1. 根据已有的数据,行业分析特点,行业周期分布,自身发展的障碍和未来预测等,从旧数据,来预测未来数据,来完善这个行业的其他获得不到的数据。
  2. 根据相关类似行业特点,将第一步完善的数据进行调整。
  3. 根据上下游行业发展和趋势预测,将第二步完善的数据和分析进行调整
  4. 根据国家政策和行业壁垒等会带来严重格局改变的因素,对第三步完善的数据,猜想到上限和下限。
  5. 通过和行业内专家或者各公司ceo访谈,进一步完善第四步的分析结果。

一个互联网产品经理的经验之谈,数据并非总是万能的和高效的:

其实对于做任何一个分析,基本上都是很难让你在获得足够的数据的情况下做决策。下面我简单说说我的一些看法:
1、多找人聊,而不是闷头瞎猜
聪明的分析师一定是会选择多找行业内的人士沟通,而不是闷突瞎猜。一般我给我团队的同学们安排工作的时候,都是要求他们多方打听,多听取别人的“成功“经验。即便有时候大家可能觉得自己对某个事情已经了解的非常清楚,但是实际情况往往不是这样。这里,还是要相信群众。
2、找到关键人
是的,能找到很多人了解的确是不错,不过,很多情况下你从这些人的口中了解到的情况,获得的数据往往是不能相互验证的。这时候,你需要能找到这个行业的关键人,并且要和关键人搞好关系,找到关键人,胜过你胡乱找十个八个都更加有用。当然,到底谁是你在这个行业的关键人,这就要求你有很强的判断力了。同时,光找到人还没用,你还得考虑如何与之搞好关系,别人凭什么给你讲,你能带给对方什么呢?
3、迂回的方式获得数据
当然,很多时候,无论你通过什么方法,一些核心数据你都是无法直接获取的,这时候就需要采取一些迂回的手段。举个例子:比如说你想知道一家企业一年的的收入及纯利润,直接问别人,别人可能不告诉你。怎么办呢?这时候,比如说:1)你可以通过其竞争对手了解这家企业的数据;2)采用迂回的手段获取数据,比如问他们公司有多少人,销售人员有多少,利润率估计有多高(就关于这个,也可以迂回一些,察言观色,比如问他们的利润率估计比竞争对手相比怎样的啊等等),获得这些数据之后,你就可以做一些简单的预测了。
4、公开的信息能信么?
有很多人喜欢在互联网上收集信息,这些信息的确是很有用,不过还得看你如何用这些信息,很多时候,这些数据都是夸大的,你要学会如何去除这些数据中的水分,这里面可能就要用到一些标杆分析等分析方法了,比如可以用你最熟悉的行业与你要分析的行业做一个对比分析,从中发现问题。