数据可视化的历史

时间:2024-02-23 21:47:42

    数据可视化是什么?

    The main goal of data visualization is its ability tovisualize data, communicating information clearly and effectively.— Vitaly Friedman

    数据可视化的目的,是要对数据进行可视化处理,以使得能够明确地、有效地传递信息

    为什么需要数据可视化?
    比起枯燥乏味的数值,人类对于大小、位置、浓淡、颜色、形状等能够有更好更快的认识。经过可视化之后的数据能够加深人对于数据的理解和记忆,增加信息的可传播性
   例如有以下的数据,你能一眼看出哪一个最大吗?
  【 321, 564, 1391, 245, 641, 798, 871 】
   可视化之后呢?

 

 

可以把数据可视化可分为九大阶段:

1.17世纪前:早期地图与图表

      在17世纪以前人类研究的领域有限,总体数据量处于较少的阶段,因此几何学通常被视为可视化的起源,数据的表达形势也较为简单。但随着人类知识的增长,活动范围不断扩大,为了能有效探索其他地区,人们开始汇总信息绘制地图。16世纪用于精确观测和测量物理量以及地理和天体位置的技术和仪器得到了充分发展,尤其在W.snell于1617年首创三角测量法后,绘图变得更加精确,形成更加精准的视觉呈现方式。由于宗教等因素,人类对天文学的研究开始较早。一位不知名的天文学家于l0世纪创作了描绘7个主要天体时空变化的多重时间序列图,图中已经存在很多现代统计图形的元素坐标轴,网格图系统,平行坐标和时间序列。

2.1600—1699: 测量与理论

      更为准确的测量方式在17世纪得到了更为广泛的使用,大航海时代,欧洲的船队出现在世界各处的海洋上,发展欧洲新生的资本主义,这对于地图制作、距离和空间的测量都产生了极大的促进作用。同时,伴随着科技的进步以及经济的发展,数据的获取方式主要集中于时间,空间,距离的测量上,对数据的应用集中于制作地图,天文分析(开普勒的行星运动定律1609)上。
此时, 笛卡尔发展出了解析几何和坐标系,在两个或者三个维度上进行数据分析,成为了数据可视化历史中重要的一步。同时,早期概率论(Pierre de Fermat与Pierre Laplace)和人口统计学(JohnGraunt)研究开始出现。这些早期的探索,开启了数据可视化的大门,数据的收集、整理和绘制开始了系统性的发展。在此时期, 由于科学研究领域的增多,数据总量大大增加,出现了很多新的可视化形式。人们在完善地图精度的同时,不断在新的领域使用可视化方法处理数据。本世纪末,启动“视觉思维”的必要元素已经准备就绪。

(建立坐标,用刻度表示距离,计算托莱多到罗马的距离)

3.1700-1799:新的图形形式

     18世纪可以说是科学史上乘上启下的年代,英国工业革命以及牛顿对天体的研究,以及后来微积分方程等的建立,都推动着对数据向精准化以及量化的阶段发展,统计学研究的需求也愈发显著,用抽象图形的方式来表示数据的想法也不断成熟。此时,经济学中出现了类似当今柱状图的线图表述方式,英国神学家Joseph Priestley也尝试在历史教育上使用图的形式介绍不同国家在各个历史时期的关系。法国人Marcellin DuCarla绘制了等高线图,用一条曲线表示相同的高程,对于测绘、工程和军事有着重大的意义,成为了地图的标准形式之一。
    数据可视化发展中的重要人物,Wiliam Playfair在1765年创造了第一个时间线图,其中单个线,用于表示人的生命周期,整体可以用于比较多人的生命跨度。这些时间线直接启发了他发明的条形图以及其他一些我们至今仍常用的图形,包括饼图、时序图等。他的这一思想可以说是数据可视化发展史上一次新的尝试,用新的形式表达了尽可能多且直观的数据。
    随着对数据系统性的收集以及科学的分析处理,18世纪数据可视化的形式已经接近当代科学使用的形式,条形图和时序图的等可视化形式的出现体现了人类数据运用能力的进步。随着数据在经济,地理,数学等领域不同应用场景的应用,数据可视化的形式变得更加丰富,也预示着现代化的信息图形时代的到来。

                (William Playfair创造的第一张柱状图)

     4.1800—1849:现代信息图形设计的开端
     十九世纪上半叶,受到上世纪的视觉表达方法创新的影响,统计图形和专题绘图领域出现爆炸式的发展,目前己知的几乎所有形式的统计图形都是在此时被发明的。在此期间,数据的收集整理范围明显扩大,由于*加强对人口,教育犯罪,疾病等领域的关注,大量社会管理方面的数据被收集用于分析。1801年英国地质学家william Smith绘制了第一幅地质图,引领了一场在地图上表现量化信息的潮流,也被称为“改变世界的地图”。
这一时期,数据的收集整理从科学技术和经济领域扩展到社会管理领域,对社会公共领域数据的收集标志着人们开始以科学手段进行社会研究。与此同时科学研究对数据的需求也变得更加精确,研究数据的范围也有明显扩大,人们开始有意识地使用可视化的方式尝试研究、解决更广泛领域的问题。

 

     5.1850-1899:数据制图的黄金时期
     在十九世纪上半叶末,数据可视化领域开始了快速的发展,随着数字信息对社会,工业,商业和交通规划的影响不断增大,欧洲开始着力发展数据分析技术。高斯和拉普拉斯发起的统计理论给出了更多种数据的意义,数据可视化迎来了它历史上的第一个黄金时代。
统计学理论的建立是拘束可视化发展的重要一步,此时数据的来源也变得更加规范化,由*机构进行采集。随着社会统计学的影响力越来越大,在1857年维也纳的统计学国际会议上,学者就已经开始对可视化图形的分类和标准化进行讨论。不同数据图形开始出现在书籍、报刊、研究报告和*报告等正式场合之中。这一时期法国工程师Charles Joseph Minard绘制了多幅有意义的可视化作品,被称为“法国的Playfair”,他最著名的作品是用二维的表达方式,展现六种类型的数据,用于描述拿破仑战争时期军队损失的统计图,具体见下图。

     1879年,Luigi Perozzo绘制了一张1750-1875年瑞典人口普查数据图,以金字塔形式表现了人口变化的三维立体图,此图与之前所看到的可视化形式有一个明显的区别:开始使用三维的形式,并使用彩色表示了数据值之间的区别,提高了视觉感知。
     在对这一时期可视化历史的探究中发现,数据来源的官方化,以及对数据价值的认同,成为了可视化快速发展的决定性因素,如今几乎所有的常见可视化元素都已经出现。并且这一时期出现了三维的数据表达方式,这种创造性的成果对后来的研究有十分突出的作用。

 6.1900—1 949:现代休眠期
     20世纪的上半叶,随着数理统计这一新数学分支的诞生,追求数理统计严格的数学基础并扩展统计的疆域成为这个时期统计学家们的核心任务。数据可视化成果在这一时期得到了推广和普及,并开始被用于尝试着解决天文学、物理学、生物学的理论新成果,Hertzsprung—Russell绘制的温度与恒星亮度图成为了近代天体物理学的奠基之一;伦敦地铁线路图的绘制形式如今依旧在沿用:E.W.Maunder的“蝴蝶图”用于研究太阳黑子随时间的变化。
     然而,这一时期人类收集、展现数据的方式并没有得到根本上的创新,统计学在这一时期也没有大的发展,所以整个上半叶都是休眠期。但这一时期的蛰伏与统计学者潜心的研究才让数据可视化在本世纪后期迎来了复苏与更快速的发展,可视化黄金时代的结束,并非是可视化的终点。

     7.1950-1974:复苏期
    从2O世纪上半叶末到1974年这一时期被称为数据可视化领域的复苏期,在这一时期引起变革的最重要的因素就是计算机的发明,计算机的出现让人类处理数据的能力有了跨越式的提升。在现代统计学与计算机计算能力的共同推动下,数据可视化开始复苏,统计学家JohnW.Tukey和制图师Jacques Bertin成为可视化复苏期的领军人物。
     JohnW.Tukey在二战期间对火力控制进行的长期研究中意识到了统计学在实际研究中的价值,从而发表了有划时代意义的论文“The Future of Data Analysis”,成功的让科学界将探索性数据分析(EDA)视为不同于数学统计的另一独立学科,并在本世纪后期首次采用了茎叶图、盒形图等新的可视化图形形式,成为可视化新时代的开启性人物。Jacques Bertin发表了他里程碑式的著作Semiologie Graphique。这部书根据数据的联系和特征,来组织图形的视觉元素,为信息的可视化提供了一个坚实的理论基础。
     随着计算机的普及,上世纪六十年代末,各研究机构就逐渐开始使用计算机程序取代手绘的图形。由于计算机的数据处理精度和速度具有强大的优势,高精度分析图形就已不能用手绘制。在这一时期,数据缩减图、多维标度法MDS、聚类图、树形图等更为新颖复杂的数据可视化形式开始出现。人们开始尝试着在一张图上表达多种类型数据,或用新的形式表现数据之间的复杂关联,这也成为现今数据处理应用的主流方向。数据和计算机的结合让数据可视化迎来了新的发展阶段。

     8.1975至2011年 动态交互式数据可视化
     在这一阶段计算机成为数据处理必要的成分,数据可视化进入了新的黄金时代,随着应用领域的增加和数据规模的扩大,更多新的数据可视化需求逐渐出现。二十世纪七十年代到八十年代,人们主要尝试使用多维定量数据的静态图来表现静态数据,八十年代中期动态统计图开始出现,最终在上世纪末两种方式开始合并,试图实现动态、可交互的数据可视化,于是动态交互式的数据可视化方式成为新的发展主题。
     数据可视化的这一时期的最大潜力来自动态图形方法的发展,允许对图形对象和相关统计特性的即时和直接的操纵。早期就已经出现为了实时的与概率图(Fowlkes,1969)进行交互的系统,通过调整控制来选择参考分布的形状参数和功率变换。这可以看作动态交互式可视化发展的起源,推动了这一时期数据可视化的发展。

    9.2012至今:大数据时代
     在2003年全世界创造了5EB的数据量时,人们就逐渐开始对大数据的处理进行重点关注。发展到2011年,全球每天的新增数据量就已经开始以指数倍猛增,用户对于数据的使用效率也在不断提升,数据的服务商也就开始需要从多个维度向用户提供服务,大数据时代就此正式开启。
     2012年,我们进入数据驱动的时代。掌握数据就能掌握发展方向,因此人们对数据可视化技术的依赖程度也不断加深。大数据时代的到来对数据可视化的发展有着冲击性的影响,试图继续以传统展现形式来表达庞大的数据量中的信息是不可能的,大规模的动态化数据要依靠更有效的处理算法和表达形式才能够传达出有价值的信息,因此大数据可视化的研究成为新的时代命题。
     我们在应对大数据时,不但要考虑快速增加的数据量,还需要考虑到数据类型的变化,这种数据扩展性的问题需要更深入的研究才能解决;互联网的加入增加了数据更新的频率和获取的渠道,并且实时数据的巨大价值只有通过有效的可视化处理才可以体现,于是在上一历史时期就受到关注的动态交互的技术已经向交互式实时数据可视化发展,是如今大数据可视化的研究重点之一。综上,如何建立一种有效的、可交互式的大数据可视化方案来表达大规模、不同类型的实时数据,成为了数据可视化这一学科的主要的研究方向。

 

参看文献:

雷婉婧. 数据可视化发展历程研究[J]. 电子技术与软件工程, 2017(12):195-196.

Friendly M . A Brief History of Data Visualization[M]// Handbook of Data Visualization. Springer Berlin Heidelberg, 2008.