俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。
数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程:
(1)公开数据库
这些公开数据库提供的数据结构良好,而且来源可信,是数据来源的首选。代表性的有:
国外:
ProPublica数据库:https://projects.propublica.org/data-store
Google公共数据资源:http://www.google.com/publicdata
世界银行数据库:http://data.worldbank.org.cn
... ...
国内:
*国家统计局:http://www.stats.gov.cn
... ...
(2)搜索引擎
其实公开数据库中也会用到搜索,只不过其搜索的范围是自身数据库。如果公开数据库中不能获取,那么我们就可以使用搜索引擎从整个互联网中寻找。最常用的搜索引擎有百度和谷歌(谷歌需要*使用),另外还有一些不太常用但是某些方面比较独到的搜索引擎,比如新浪爱问。
(3)网页抓取
如果以上两种方式均不能满足,那么可以直接网页抓取,前提是你已经找到了存放数据的一系列网页,这时候就可以利用抓取软件(如import.io等)或者编程(如R或Python)获取。不过采取这种方式获取的数据往往需要进行清洗工作,抓取完成后就需要OpenRefine上场了。
以上三种方式将另文详细分别作介绍,其实除了上述三种方式外,我们还可以通过申请*信息公开获取数据,或者采取互联网众包方式获取数据,但其较难操作且效果不易把控。另后续将对以上三种数据获取方式作专题介绍。