一、第一部分03——更好:不是因果关系,而是相关关系
小数据时代,我们善于去做样本实验,也善于去从实验结果中发现因果,更要依靠这些去作出决策。因为数据量小,所以无法代表总量,因而决策的时候,需要去进行因果关系的分析,以辅助所得到的小数据样本分析结果。但是在大数据时代,借助着先进的计算技术和存储技术,我们发现,因果关系不再像以前那么重要,反而,一些我们一时得不出结论却能够反映问题的相关关系开始大行其道,派上用场。作者开篇就说,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是让数据自己“发声”。往往能够知道跟什么相关而不是为什么相关,就能够解决很多问题,创造很多财富。
最先开始将相关关系使用在商业模式上的恐怕要算亚马逊和谷歌了。亚马逊的总裁,杰夫贝索斯,决定尝试一个极富创造力的想法:根据客户以前的购物喜好,为其推荐具体的书籍。为什么他可以这么做呢,因为亚马逊前期或者说从一开始,就从每一个客户的身上收集了大量的数据。那么这样一套推荐系统,需要做的事就是找到产品之间的关联性。1998年,林登和同事还申请了著名的“item-to-item”协同过滤技术专利。亚马逊以前是请了一大帮书评家去评论每一本书,然后读者根据书评去决定买什么书的,书评家团队曾经是亚马逊最核心的竞争资源。但是,观念的改变却带来了新的结论,那就是,通过数据推荐产品所增加的销售远远超过了书评家的贡献。计算机可能,不,是肯定并不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书,但是这似乎并不重要,重要的是销量。如今,亚马逊销售额的三分之一都是来自于它的个性化推荐系统,它梳理出了有趣的相关关系,却不知道背后的原因。“知道是什么就够了,没必要知道为什么。”作者如是说。
关联物,预测的关键
相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化;或者是,另一个数据也可以大幅变化,只是没有趋势可循。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释清楚每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。但是,如果相关关系强,一个相关链接成功的概率是很高的。就比如说亚马逊的这个利用相关性的协同过滤推荐系统,很多人通过自己都可以证明,他们的书架上有很多书都是因为亚马逊的推荐而购买的。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。比如说A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉和A一起发生的事情,即使我们不能直接测量或者观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。我觉得这种思想很普遍的运用于天文学发现中,比如一开始只是发现了A事件,根据经验猜测A事件是因为和B物体相关,至于为什么相关,是根据过去的观测和研究纪录得来的相关性统计经验,但是往往不能直接测量和观测B物体(比如B物体是黑洞或是其他暗物质),可是可以大概预测未来A事件会怎么继续发生,如果推测符合观测,那么就有很大的把握确信B的存在。这样,就可以通过一些其他的办法去间接推断,再根据各种相关性的研究去总结出因果性,最终用实验或者是进一步的观测证实。我在想,将大数据应用于天文学,或许我们能对于宇宙深空探索有一个质的飞跃。
过去,我们需要先有一个想法,心里拟定一个关联物,然后再收集数据去测试这个想法的可行性,这样很容易出问题,而且出了问题再改就难了,获取的知识也有限;但是现在,我们有了如此多的数据和工具,要找出关联物,寻找正确靠谱的相关关系变得更快更容易。就像在谷歌预测流感趋势的过程中,计算机把检索词条在5亿个数学模型上进行测试以后,准确地找出了哪些是与流感传播最相关的词条。
大数据崇尚的是样本=总体的情况下去遍历所有的模型找知识。有些相关关系是统计的结果而并不需要去假想相关的关联物,关联物其实非常显然,超市里的统计最能说明这一点。美国折扣零售商Target利用大数据能够在完全不和准妈妈对话的前提下预测她什么时候怀孕。公司的分析团队首先查看签署婴儿礼物登记的女性的消费记录,Target注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香的乳液,几个月之后,她们会买一些营养品、比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行怀孕趋势的评分,这些相关关系使得零售商能够比较准确地预测预产期,这样就能够在孕期的各个阶段给用户寄送相应的优惠券。通过找出一个关联物并监控它,我们就能够去预测未来。
是什么,而不是为什么
小数据时代,相关关系和因果分析都不容易,都要耗费巨大的资源,都要从建立假设做起,那么这些分析由于始于假设,所以都有收到偏见影响的可能,而且极易导致错误。而且大部分的相关关系仅限于寻求线性关系,事实上很多关系都是“非线性关系”。比如说如何衡量幸福。作者在书里提到,对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会逐步提升;但对于收入水平在1万美元以上的人来说,幸福感不会随着收入水平的提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线而不是直线。那么根据这样的统计,决策者就可以调整策略,将策略的重心由提高全民的收入水平以增加全民的幸福感变成提高低收入人群的收入水平以增加他们的幸福感,这样明显更划算。至于为什么人们有这样的差别,有这样不同的心态,探究有意义但是要耗费资源,通过了解是什么就能够达到解决问题的目的。
通过探求“是什么”而不是“为什么”,相关关系可以更好地帮我们了解这个世界。相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来的话,这些视角就有可能被蒙蔽掉。
大数据,改变人类探索世界的方法
在前面,我强调了相关关系是那么的重要,那么的便捷,这是不是意味着我们就可以只要相关关系而不要因果关系啦?再上升一个层面上说,是不是今后人类探索世界,就不再需要理论的指导而只需要建立于实践基础上的相关啦?有人走了这样的极端。2008年,《连线》杂志主编克里斯安德森说,大量的数据从某种程度上来说使得一系列的用因果关系来验证各种猜想的传统研究范式已经不实用了,它将会被无需理论指导的纯粹的相关关系研究所取代。他的核心思想是,我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代,我们不再需要理论了,关注数据就够了。这种思想被称之为“理论的终结”。这种思想当然是荒谬的。大数据,只是改变了人探索世界的方法,使得人们理解的更多,但是它也是在理论的基础上形成的。如何收集数据,我们是看收集的方便程度还是看成本呢,我们做决定的时候就在被理论所影响着,我们的选择在一定的程度上决定了结果。同时,我们在分析数据的时候,也依赖于理论来选择我们所使用的工具。最后,我们在解读研究结果的时候同样会使用理论。所以说,大数据时代绝对不是一个理论消亡的时代,相反的,理论贯穿着大数据时代的方方面面。可以说,有了大数据,人类在理论基础上的认知又前进了一大步,而人类探索世界的方法得到了质的飞跃。
2、第二部分04——数据化:一切皆可“量化”
在第一部分的三章里,我们着重讨论了大数据时代的三大思维变革:更多、更杂、更好,说明了大数据是如何认识世界、如何解决问题,主要是从正面指出了大数据的优势。但是其实阅读了第一部分我自己就感觉到,大数据还是一个很新、很待发展的东西,它的理论体系还不够健全,解决问题还不够有针对性,就好比是你从一个盒子里面摸礼物,大数据的成果就是那一个个礼物,如果你没有特别急需要的东西,摸出来什么都是好的;如果你很想要某样东西,但是摸了半天都摸不出来,那就说明大数据还不能满足你的需求。但是它作为一种新的探索世界的办法,我觉得它很有前景、很有未来,而且它现在确实已经改变了这个世界,正在创造着大量的价值。因此我们进入第二部分,大数据时代的商业变革。这一部分也由三章构成,其中包括04章数据化、05章价值和06章角色定位。首先进入04章。
大数据的基础当然是数据,那么数据能覆盖多大的范围呢?作者答曰:一切。大数据最关键的当然是数据的采集,其实大数据的最早实践,在19世纪就已经开始。
莫里的导航图,大数据的最早实践之一
马修莫里是一位美国海军军官,1839年因为执行航海任务,他受了伤,被安排在了海军的图表和仪器厂。谁也想不到,这里竟然成为了他的福地。作为一个年轻的航海家,莫里曾经对船只在水上绕弯儿不走直线感到非常不解。当他向船长们问及这个问题时,他们回答说,走熟悉的路线比冒险走一条不熟悉而且可能充满危险的路线要好得多。但是根据莫里的经验,他明白这样的想法并不完全正确。他曾经经常向老船长学习经验知识,学到了潮汐、风和洋流的知识,相反海军依赖于陈旧的图表,有的可能已经用了百年,有很多错。他在库房的时候,发现了很多航海书籍、地图和图表,还有很多航海日志。他发现,航海日志里,有对于特定日期、特定地点的风、水和天气情况的记录,大部分信息都很有价值,如果把它们整理到一起,有可能呈现一张全新的航海图。莫里和他的20台“计算机”——那些进行数据处理的人,一起把这些破损的航海日志里记录的信息绘制成了表格,这是一项非常繁重的工作。他整合了数据之后,把整个大西洋按照经纬度划分成了五块,并按照月份标出了温度、风速和风向,因为根据时间的不同,这些数据也有所不同。整合之后,这些数据显示出了有价值的模式,也提供了更有效的航海路线。为了提高精确度,莫里需要更多的信息,因此他创建了一个标准的表格来记录航海数据,并且要求所有的美国海军舰船都要使用,返航后再提交表格。商船也想得到他的图表,莫里就要求他们拿航海日志作为回报。他说:“每艘航行在公海上的船舶从此成为一个浮动的天文台,一个科学的殿堂。”为了进一步改善和完善图表,他需要寻求更多的数据。他让船长定期向海里扔有日期、位置、风向以及当时洋流情况的瓶子,然后再来寻找这些瓶子。许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。通过分析这些数据,莫里绘制出了能节省一大笔钱和三分之一海上时间的图表。1855年,莫里的权威著作《关于海洋的物理地理学》出版,当时他已经绘制了120万个数据点。在这些图表的帮助下,年轻的海员们不用再去亲自探索和总结经验,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。
花了这么一大段文字去描述莫里的大数据早期探索,想指出三个问题:1、数据采集和提取的困难,莫里确实想了很多的办法,很重要的有两点,一是统一的表格,二是诸多的测量结果和测量数据;2、利用大数据其实就是一个集思广益的过程,不需要太多的理论支点,只需要大家都能够忠实的遵守要求去提交最真实的数据;3、将普通的经验和直觉转换为具体的数据,就是数据提取和数据化的过程。可以说,在大数据的领域里,莫里是功勋卓著的先驱和开山鼻祖。
数据,从最不可能的地方提取出来
庞大的数据库有着小数据库所没有的价值,莫里中校是最早发现这一点的人之一。大数据的核心就是挖掘出庞大数据库独有的价值。更重要的是,他深知只要相关信息能够提取和绘制出来,脏乱的航海日志就能够变成有用的数据。所以说,莫里是数据化的先驱。大数据的基础当然是数据,那么数据怎么从日常生活中提取出来就成为了核心的问题。在航海的问题上,莫里想了很多的办法,而当今随着计算机网络技术和存储处理技术的发展,从最不可能的地方提取出数据变得可能了。用一句俗话说,只有你想不到,没有数据做不到。比如说,日本先进工业研究所的教授越水重臣就试图去发掘一个人开车时候坐姿的信息,其实真的可以,因为当一个人坐着的时候,他的身型、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队在汽车座椅下部安装了360个压力传感器以及测量人对椅子施加压力的方式,把人的屁股特征转化成了数据,并且用从0-256数值范围对其进行量化,这样就可以产生每个乘坐者的精确数据资料。越水重臣就把这样一个从不认为是数据甚至是不被认为和数据沾边的事物转化成为了可以用数值来量化的数据模式。同样,莫里中校也从看上去没有什么用处事物中提取出了信息,转化成了极其有用的数据。这种创新性的应用就创造出这些信息独特的价值。
其实无论是他们的工作还是其他类似的工作都可以说明,大数据时代,将生活中、生产中的一切量化是可以做到的,而且随着大数据思想的深入,完成对世间万物的数据化测量也是必然的要求。我曾看过一本书名叫《丈量世界》,书里的主人公虽然费尽心力到达了人类所没有到达的亚马逊河深处,但是记录的都是见闻而少有数字,实在深感可惜!所谓数据化,就是指一种把现象转变为可制表分析的量化形式的过程。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
当文字变成数据
数字化和数据化这两个名词是有差异的,最大的体现就是在于书籍领域。谷歌做的一个项目叫做数字化文本,很简单,就是要把全世界的书通过扫描成图片导入到电脑,从而在虚拟世界里传播。但是它也仅仅叫做数字化,而不叫作数据化,因为它扫进去的都是图片,书里面的每一个字都不能被识别,不能被统计。后来,谷歌使用了光学字符软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本,而计算机也可以处理和分析这些数据了。
当方位变成数据
地球本身构成了世界上最基础的信息,但是历史上它几乎从来没有被数据化和量化过。对于地理位置的数据化需要满足一些前提条件,我们需要能够精确地测量地球上的每一块地方;我们需要一套标准的标记体系;我们需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具,只有具备了这些,我们才能把位置信息当成数据来存储和分析。20世纪40年代,墨卡托方位法把世界划分成为60个区域,提高了地理位置的精确性,后来经过人们的不断努力,地理定位信息终于能够在标准化的数据范式下标记、记录、测量、分析和共享了。如今,GPS还有北斗,欧洲的伽里略都可以准确的提供位置等数据信息。总之,位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
当然,除此以外还有沟通数据化、健康数据化、情感数据化等等,把世间万物去进行数据化,就好像我们正在进行一个重大的基础设施项目,功在当代,利在千秋。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。今天,我们生活在一个计算型的社会,将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。“它是一种可以渗透到所有生活领域的世界观。”
3、第二部分05——价值:“取之不尽,用之不竭”的数据创新
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据资源和其他的资源不太一样,它可以反复用反复用,每用一次,它就多一分价值。这一部分,作者举了很多的例子去说明数据资源价值的巨大和现在就在发生的数据创新。
数据创新1:数据再利用
2000年,路易斯冯安发明了验证码(全称为“全自动区分计算机和人类的图灵测试”)。但是当他意识到每天有这么多人要浪费10秒钟输入这堆恼人的字母,而随后大量的信息被随意的丢弃时,他感觉沮丧。于是他开始寻找能使人的计算能力得到更为有效利用的办法。他想到了一个继任者,恰如其分的命名为ReCaptcha。和原有的随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确了才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但是它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了这项技术并将其用于图书扫描项目。这个故事充分说明了数据再利用的重要性。
在我们现在生活的这个时代,我们在不同的时间和空间所做过的事情都在被用数据记录着,被一些系统综合着,不仅可以通过定位手机寻找出我们每时每刻的隐性轨迹,也可以通过我们的购买选择寻找出我们的隐性取向,还可以通过社交网络去统计我们的人际关系、想法、喜好、日常生活模式,从而构成我们每一个人的隐性档案。作出判断和统计的这些数据都是我们以前不连续产生的数据,但是大数据时代的数据再利用将它们组合在一起,刻画出了我们每一个人。这就是数据再利用的一种价值体现。所以说,不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的价值,如果要详细判断,应该是其所有可能用途的总和。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一分钱两分货”。其实数据的再利用,还有的例子比如说搜索关键词,建立语音识别库,进行不耗成本的拼写检查,预测机票价格和股市走向等等。
数据创新2:重组数据
数据被用完了,暂时用不着的状态可以称之为“休眠状态”。有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,我们可以做出很有创意的东西。一个成功的例子是2011年发表的关于手机是否增加致癌可能性的一项有趣的研究。丹麦癌症协会,通过分析1990年至2007年间拥有手机的用户(共涉及358403人)和10729名中枢神经系统肿瘤患者这两个数据集结合的关系去发掘是否手机用户比非手机用户具有更高的癌症发病率。尽管研究的规模很大,数据却没有出现丝毫混乱或含糊不清。最后研究发现,移动电话的使用和癌症风险的增加没有什么关系。研究结果发布在了《英国医学杂志》。这个例子是研究疾病过程中使用大数据的方法作出的方法创新,随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
数据创新3:可扩展数据
促成数据再利用的方法之一是从一开始就设计好它的可扩展性。比如,有些零售店在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。还有诸如谷歌街景和GPS采集,不仅优化了地图服务,对于谷歌自动驾驶汽车的运作也是功不可没。
数据创新4:数据的折旧性
虽然数据的价值在于多次使用,历史数据也有意义,这些都激发了企业保存数据的强烈的经济动机,但是有些数据的有效性毕竟有限。随着时间的推移,大多数数据都会失去一部分基本用途,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如你在十年前在亚马逊上买了一本书,现在可能不喜欢这类书了,如果亚马逊还拿那个数据来做推荐就会让你觉得推荐很不合理。但是这些数据,可能会帮助改善一些现有的东西。比如谷歌拥有着大量的历史数据,它希望能得到每年的同比数据,比如假日购物搜索等,从而改善搜索结果的相关性。例如很多纽约人都会搜索“火鸡”,但经常搜索到关于“土耳其”的网页,那么他们往往会下翻,找那些关于火鸡的靠后的链接。通过算法结合历史数据的改进,通过统计点击量,就可以在今后将他们想看的页面放在排名靠前的位置,方便其他的纽约人查找。
数据创新5:数据废气
还是谷歌,它曾经敏锐的注意到,人们经常搜索某个词及其相关词,点击进入以后却未能找到想要的信息,于是又返回搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接或是干脆放弃所有搜索点击。这些信息是非常有价值的,如果很多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动的在随后的搜索中将它提到页面中比较靠前的位置。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
数据的价值,可以说无从估计,但是未来某些数据也许会被纳入到一些企业的无形资产里,从价值估算的角度来看,要考虑数据持有人在价值提取上所采取的不同策略从而定价。但是数据的价值关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。