大数据=传统的量数+现代的据数 - 时间朋友

时间:2024-03-11 20:40:29

大数据=传统的量数+现代的据数

量数与据数是涂子沛在新书《数文明》里的提出的概念,大数据=传统量数+现代据说也是他在书里提出的观点。随着科技不断发展,人们经历量数爆炸后正经历据数爆炸,而他这次新书也主要是以据说为主题描述了很多相关的案例。

随着大数据的兴起,“言必称数据”逐渐成了我们这个时代一个显著的特征,但问题是,此数据非彼数据。
今天,所有“记录”的结果,甚至包括文字,都被统称为数据。这其中暗含的逻辑是,数据作为一个概念,它的内涵扩大了。传统意义上的数据是人类对事物进行测量的结果,是作为“量”而存在的数据,可以称为“量数”;今天的照片、视频、音频不是源于测量而是源于对周围环境的记录,是作为一种证据、根据而存在的,可以称为“据数”。
量数和据数,两者原本风马牛不相及,但在今天这个时代,它们又有了一个共同的特点—以“比特”为单位进行存储。关于大数据的定义,我主张用这样一个等式较为简洁地表示:

大数据 = 传统的量数+现代的据数
(量数源于测量,如气温28℃) (据数源于记录,如一张照片)

量数虽然比据数更接近“数”,但从历史上看,据数的出现要早于量数。人类早期对自身活动的记录,即“史”,就是早期的据数,也可以说,据数是历史的影子。量数则是在记录的实践中慢慢产生的,特别是针对天空、星体、山川等外物的记录,它们追求精确,于是我们逐渐延伸出测量的工具和行为。一切科学都源于测量,量数是否充沛,决定了科学的种子何时萌芽,决定了科学是否发达,也可以说,量数是科学的母亲,其核心要义是精确。
在16世纪前后,人类开启了大航海时代,量数出现了一个高峰。随着航海仪器的普及,欧洲对土地测量、建筑设计、矿山开采、人口统计的需求也应运而生。人类发现,定性描述不足以解决问题,只有更加精确的测量和计算,才能够满足科学和管理的需要,这引发了历史上第一次数据爆炸:量数爆炸。
这也是人类历史上第一个数据的春天。
进入20世纪后,由于计算机、互联网和智能手机的普及,据数开始爆炸,相较于16世纪的量数爆炸,据数爆炸的规模更大。今天大数据的主体,从体量上来看,毫无疑问是据数,即对人类活动及周边环境越来越多的记录,或称“普适记录”。互联网平台记录的,大部分是据数。
和今天的普适记录相比,过去5 000年的文明看似浩如烟海,但其实相当有限,史书虽然一本比一本厚,但大部分都聚焦在为数不多的帝王将相身上,关于普通百姓的个体性记录,在全世界各个国家都少之又少。随着普适记录的兴起,这种情况正在迅速改变,未来不仅有国家史、社会史、行业史,还会有数量惊人的“个人史”。可供历史学家研究的资料,将会像雪球一样越滚越大,其规模将之前没有。
量数对于中国的巨大意义,自不待言,黄仁宇的“数目字管理”在20世纪曾经开启过一场讨论,《大数据》《数据之巅》关注的是量数,尤其是《数据之巅》,它延续了黄先生的讨论,而《数文明》更侧重据数。

一场还没有完成的革命
今天的“大数据之热”,热的其实是据数,和精确的量数几乎没有任何关系。
“据数之热”并不奇怪,它源于互联网带来的变革和它已经展现出来的巨大的财富效应,形形色色的手机应用给了每一个人更加直观的感受,不管是电商、社交还是自媒体,哪一个不是跟记录之据数有关呢?
几乎人类的一切行为,今天都可能、可以被记录,并被转化为据数。如果说量数的核心要义是“精确”,那据数的关键就在于“清晰”地留据。
因为智能手机的普及,据数已经无处不在,但我们大部分人对据数的理解是肤浅的,迄今为止,以据数为中心的大数据讨论主要停留在以下三个层面。
一是精准营销,即互联网广告业。和传统的广告业相比,今天的互联网和智能手机通过记录消费者不断产生的数据,可以向终端用户推送个性化的广告,这大大提高了行业效率。这是大数据革命在商业领域的起源。这也是目前互联网企业,无论是中国的BAT(百度、阿里巴巴、腾讯),还是美国的谷歌、Facebook(脸谱网)、亚马逊主要的赢利途径。
二是商业和社会信用,其主体是金融机构。除了精准营销,这是利用大数据赚钱的第二个法门,也是我们看到诸多互联网企业陆续进入金融领域的原因。其商业模式是,通过消费者的消费记录评估消费者的信用,从后续的金融服务中赢利。例如阿里巴巴旗下的“芝麻信用”和腾讯旗下的“微粒贷”,它们在给消费者打“信用分”的基础上,向单个消费者提供贷款等金融服务。
这两种商业模式,都需要通过数据监控消费者在互联网上的一举一动,消费者个体因此成为被观察、被分析、被监测的对象,这就带出了第三个层面的问题—隐私。这两种商业模式的副作用是,我们几乎每天都能听到数据泄露的新闻,时不时还会看到因为它而导致的悲剧。
最近,我的一个朋友告诉我,今日头条向他推送泳衣和泳镜的广告,明显是知道他最近去游泳了,他琢磨了一下,发现仅有可能的原因,是他在下水之前把智能手表调节到了泳池模式。
毫无疑问,今日头条打通了这款智能手表的数据。大众对这种商业模式有一种矛盾的心理:一方面,我们感到权利受到了侵犯,没有得到尊重,被出卖了,社会舆论也往往会把它简单地放在公平的背景下进行考量,一边倒地反对这种商业模式;另一方面,也许我们真的需要一副泳镜,不想拒绝这种便利和高效。
这两种商业模式之所以可行,是因为它们以据数为基础掌握了消费者的动态,据数的商业和管理价值正是本书论述的重点,但为了行文方便,本书大部分时候仍使用了“数据”一词,因此本书的“数据”二字实为指代“据数”一义。
这就是大众眼中的大数据,前两者为商业利润而生,而隐私问题屡屡成为社会公共话题。可是,这三个层面仅仅揭开了冰山的一角,难道大数据就是养了几家大公司,方便了公众生活,改善了信用评级体系,让生活更美好或者多了点麻烦这么简单?
我认为远不止于此。
在商业层面,大数据还在进一步深化变革,它所催生的互联网应用仍在不断更新迭代。当大数据完全发挥出它的潜力时,其形态将是全自动商业,或称智能商业,商业文明将会被重塑和再造,本书将对此进行阐述。
据数的商业化应用带动了大数据的兴起,但商业只是故事的一个边角,革命是社会化的,未来我们还会看到智能制造业,它所依靠的还是数据,数据引发的变化还在向社会治理和个人生活领域全面拓进,它涉及社会生活的方方面面,将会推动整个社会进入文明新状态,改变社会的全貌。一个新的故事正在世界范围内浮现。我们必须抛开细枝末节,看到那些更深刻的、方向性的东西。数据的力量正在重塑整个社会甚至人类的天性。