2009年谷歌利用自身的搜索大数据做了一件非常神奇的事情。当时全球出现一种新的流感病毒 H1N1,尽管美国疾控中心(CDC)要求医生要及时上报疫情,但是疫情报告延迟的状况仍然非常严重。与此同时,每周都有数百万名用户运用 Google 服务搜寻网络上的健康信息。像是流感季节一到,就有许多人搜寻与流感相关的信息;在容易过敏的季节,很多人会搜寻过敏相关信息;而夏季则是最多人搜寻晒伤相关信息的季节。
当时有几位 Google 工程师就是透过美国最常使用的前 5000 万个搜寻关键字,与美国疾控中心2003-2008年间的流感传播资料加以比对,用高达 4.5 亿种不同的数学模型,试图找出这些字出现的频率、时间及地点有没有统计上的相关性(correlation)。最后发现某些搜寻关键词在流感季节特别热门,他们找出了 45 个流感关键字眼,放进数学模型之后,预测结果与官方公布的真实资料吻合,具有强烈的相关性,由此,谷歌建立起流感趋势(GFT)模型,利用该模型和实时的搜索来提前9个星期预测可能与流感相关的就医量。
而最近英国《新科学家》周刊网站报道称,在过去3年,该模型一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%。
有人担心对大数据的分析过分强调相关而不关心因果会带来不良的后果。华盛顿大学数据和隐私法学家尼尔·理查兹说,这项研究结果令人深入了解了大规模数据集分析给予技术公司的巨大力量以及这种力量为何是危险的。如今的一些技术公司在某些方面可以和国家相匹敌,而且对我们的日常生活影响非常大。
但是谷歌研究报告的主要作者、美国东北大学的戴维·拉泽说:“解决谷歌的问题相对简单,很像重新校准磅秤”。现在看来谷歌的流感趋势模型还是有其意义的,相信通过更多的数据积累和模型的调整,该模型在流行疾病的预测上还会发挥更大的作用。