下一代视觉化工具:能够应用于大规模数据分析(综述部分翻译)

时间:2023-02-09 20:35:08

Application driven visualization

应用驱动的可视化

 

名词

Graphics pipeline

Multiresolution data 

Rendering

 

 

把数据送入一个管线图,通过使用多分辨率数据呈现和压缩方法(量化和变化基数的压缩)。然而,这种方法为了数据压缩和减少并不考虑知识主体和视觉化目的。尤其是压缩高精准浮点仅仅基于数据将导致存储不足。进一步的压缩可以使用典型化,仅仅是一小部分感兴趣的子集数据分析。我们提倡应用驱动可视化的方法压缩和渲染大规模和时空变化的科学模拟数据。大多数科学家心里有特定的知识主体和视觉化任务。在时空变化和多变量集数据视觉化的背景下,为了使一些变量和视觉化任务是可观察到的时空关系在一些其他变量和等值曲面的周围,这样的知识可以是有兴趣的突出的等值曲面。我们试图直直接把这些主体知识和任务包括进整体的数据减少,压缩和渲染过程。

 

科学家在 Sandia National Laboratories能够执行3D双重直接数值模拟研究(fully-resolved  direct numerical sinulation)涡旋燃烧。利用各种方法的时空解决域,直接的数值模拟在建立一个对微观物理和化学相互作用的基本理解上祈祷主要作用。例如:理解熄灭和复燃在涡旋火焰中的动态机制,科学家们需要确认已知的关系和揭露隐藏在多变量之间的关系。在提升涡旋喷气机的研究中,科研的兴趣是双倍的:对于喷气机火焰和悬举火焰基极区的总体结构来理解什么是悬举火焰。...这种新的视觉化和探索数据的方法让科学家们研究更大范围的研

究数据。最终的编码结果将导致节省20倍的存储空间,在图形处理单元加速渲染的使用上极其重要。用这种方法我们可以更好的处理有限的视频图形显示卡的存储空间而获得交互的视觉化。图像产生的数据是否经过数据为基础的压缩视觉上几乎没有区别。

 

Adaptive-Grid Data Visualization

可适应性的栅格数据可视化

名词

Mesh

什么是Mesh?

无线Mesh网络(无线网状网络)也称为“多跳(multi-hop)”网络,它是一种与传统无线网络完全不同的新型无线网络技术。
    在传统的无线局域网(WLAN)中,每个客户端均通过一条与AP相连的无线链路来访问网络,用户如果要进行相互通信的话,必须首先访问一个固定的接入点(AP),这种网络结构被称为单跳网络。而在无线Mesh网络中,任何无线设备节点都可以同时作为AP和路由器,网络中的每个节点都可以发送和接收信号,每个节点都可以与一个或者多个对等节点进行直接通信。 
    这种结构的最大好处在于:如果最近的AP由于流量过大而导致拥塞的话,那么数据可以自动重新路由到一个通信流量较小的邻近节点进行传输。依此类推,数据包还可以根据网络的情况,继续路由到与之最近的下一个节点进行传输,直到到达最终目的地为止。这样的访问方式就是多跳访问。 
    与传统的交换式网络相比,无线Mesh网络去掉了节点之间的布线需求,但仍具有分布式网络所提供的冗余机制和重新路由功能。在无线Mesh网络里,如果要添加新的设备,只需要简单地接上电源就可以了,它可以自动进行自我配置,并确定最佳的多跳传输路径。添加或移动设备时,网络能够自动发现拓扑变化,并自动调整通信路由,以获取最有效的传输路径。 
    无线Mesh是一种非常适合于覆盖大面积开放区城(包括室外和室内)的无线区域网络解决方案.无线Mesh网的特点是:由包括一组呈网状分布的无线AP构成,AP均采用点对点方式通过无线中继链路互联,将传统WLAN中的无线"热点"扩展为真正大面积覆盖的无线"热区"。
    此外,因为每个短跳的传输距离短,传输数据所需要的功率也较小。既然多跳网络通常使用较低功率将数据传输到邻近的节点,节点之间的无线信号干扰也较小,网络的信道质量和信道利用效率大大提高,因而能够实现更高的网络容量。比如在高密度的城市网络环境中,Mesh网络能够减少使用无线网络的相邻用户的相互干扰,大大提高信道的利用效率。

Adaptive mesh refinement

自适应网格加密

Unstructured grid

非结构化网络

Real time rates

实时率

 

 

为了包含复杂几何和现象在不同比例的模型问题,非结构化网络和自适应网络加密越来越多的用在大规模科学计算上。通过仅仅把更好的网眼结构应用于需要高准确度的区域,计算时间和存储空间都可以减少。另一方面,使用可适应性,无结构的离散化方法复杂了视觉化的任务,因为产生的数据集是在几何和地形学上都不规则的.存储和处理额外的关于栅格结构的信息需求会导致视觉化算法。视觉化算法将导致大量的存储和计算开销。硬件加速的立体渲染可以提供实时率但是受到影响的存储空间和复杂的算法的限制。尽管算法和工具是为了视觉化简单的无结构自适应网格加密,但网格结构,是一些领域的研究开始使用更过复杂的

包括网络的,重叠的,或者更高级别元素。我们正在开发新的途径来渲染这些数据。。。。品质和渲染表现都比现在的系统好。

 

Interfaces for Time-Varying,Multivariate Data Visualization

时空变化和多变量数据视觉化的界面

 

Time step时间步长

是指某些组件对本 地数据完成一次操作所需要的时间,它主要用于BSP计算性

Volume rendering

体绘制,是一种直接由三维数据场产生屏幕上二维图像的技术。

数字图像对应的是描述数据元素的颜色和光强的二维阵列,这些元素成为像素,同理,一个三维数据场可以用一个具有相应值的三维阵列来描述,这些值称为体素。类似于数字图像的二维光栅,可以把体数据场看为一个三维光栅。一个典型的三维数据场是医学图像三维数据场,由CT(计算机断层成像)或MRI(核磁共振)扫描获得一系列的医学图像切片数据,把这些切片数据按照位置和角度信息进行规则化处理,然后就形成一个三维空间中由均匀网格组成的规则的数据场,网格上的每个节点为一个体素,描述了对象的密度等属性信息。体绘制以这种体素为基本操作单位,计算出每个体素对显示图像的影响。

体绘制技术最大的优点是可以探索物体的内部结构,可以描述非常定形的物体,如肌肉,烟云等,而面绘制在这些方面比较弱。缺点是 数据存储量大,计算时间较长。

体绘制形成的图像一般是半透明的图像,颜色一般是人工指定的伪彩色。体绘制首先需要对数据进行分类处理,不同类别赋予不同的颜色和不透明度值,然后根据空间中视点和体数据的相对位置确定最终的成像效果。体绘制常用的算法有光线投射法,足迹表法,错切变形法,三维纹理贴图法等。当前的热点是基于可编程图形显卡 的体绘制算法和并行化的体绘制算法。

Multiple scalar quantities

标量

sphere glyph

Vislt

Visualization Language Interface

seeReg

 

 

视觉化工具的适用性很大程度上决定于它的使用界面。过去的视觉化研究大部分关注设计新的视觉呈现和改善性能视觉化算法。为了高级视觉化技术,合适的使用者的设计和部署开始受到越来越多的关注仅在过去几年的时间里。因此界面设计在一些机构项目起到主要作用,尤其增强了科学家的视觉化和分析时空变化,多变量数据的能力。

 

一个为了探索时间变化,多变量立体数据的视觉化界面包括三个元素:抽象复杂探索中不同空间数据和视觉化因子。这里出现了一个重要的概念,界面本身也是视觉化的。在图4,最右的面板展示了数据的时间柱状图。时间柱状图展示了数据值的分布随着时间顺序的变化,因此可以帮助使用者确定兴趣的时间步长和明确随着时间变化的特点。中间的嵌板试图展示为了选择时间步长每一组变量在平行坐标中的相互性。通过检查不同组的变量,使用者可以确定基于观察到的相关性兴趣特点。最左边的嵌板展示了一个硬件加速*绘,增强了渲染多变量为单一变量的视觉化一个客户可控的方法。这样的许多标量同时视觉化让使用者们更加紧密的探索和确认模拟,来源于时间数据空间,平行坐标轴空间还要3D物理空间。这些元素被紧密的交叉便于我们所说的三空间探索,是科学家们新的能力研究时空变化,多变量立体数据。

 

Princeton等离子物理实验室,科学家们把一个相似的界面设计有效的促进了多维颗粒数据从一个回旋仪输出。展现了一个复杂的与颗粒数据呈现有关的现象,展现了一个挑战,由于大量的颗粒变量和时间步长。通过使用两个界面模式——物理空间和多变量空间——我们的系统让科学家们探索密集压缩颗粒的采集,在数据中发现了有趣的特征。虽然单一变量可以简单的探索通过一个一维功能,我们可以再一次转向一个平行坐标系界面为了在多变量空间交互性选择颗粒。用这种方式更深联系的颗粒可以被分离,然后使用球体glyph和路径渲染。有了这种界面,科学家们可以强调位置和困于涡旋离子流颗粒的运动。在底部面板,图5中显示了一个相似的设计,为了相匹配的宇宙模拟视觉化。使用这种界面科学家们在Los Alamos National实验室,能够更加直观的简便的比较不同的模拟代码或者不同的近似值使用相同的代码。我们的多变量数据视觉化的方法已经被一般化视觉化工具采用,例Vislt.

 

正交与上面的设计,我也开发了一个界面让科学家们视觉化使用强大像一般文本搜索的表达的结构具体化多变量时间特点。通过简练的视觉化语言界面,我们把它叫做seeReg, 一个使用者为了视觉化具体化颗粒假设。seeReg的能力来源于自动化以一种简洁的角度,阐述部分具体特征和揭示在数据集中所有可能的的匹配。 图6展现了一个DOEC-LAMP视觉化(碳陆地模型相互对比计划)。气候模拟数据使用seeReg展现第一次主要的降雪时候变化。这些年展现了从上到下2050,2051,2052.“第一次降雪”通过几个月的事件发现一个具体化表达,使用者并不对变化低于雪的覆盖低于0.7个单位感兴趣。我们的理论专家认为事件是第一次主要的大降雪。0.7的值是由高度交互的实验经验决定的。这个视觉化是新颖的,因为它让模糊的用户知识直接运用在创造视觉化。这种不确定的角度已经在这个领域之前被呈现。尤其,它漂亮的成分,传统的多变量视觉化创造了一个用户界面平行坐标的类型。

 

Parallel Visualization

并行视觉化 

Down-sample

降低采样率. 
原理很简单,将信号低通以后根据内插函数将采样率降低。作用就是减少数据率,便于处理。

 

对于兆兆字节的模拟,一般的方法是时域和空域降低采样率,使能够在台式电脑上看到缩减的数据,但是不能够实现运行高分辨率的模拟。可行的办法是并行视觉化,把超级计算机的能力用在运行模拟。

存在缺点:有限的可测量性,灵活性。

Ultravis 机构的目的:使它成为为SciDAC 科学家使用的产品,更广的应用。

正在实验:输入输出(I/O)、模拟的协调而不是单一使用体绘制算法。在超级电脑上IBM Blue Gene/P and the Cray XT4评估视觉化后期处理和 situ 视觉化。

 

3D方向场域数据视觉化,需要更大的数据存储空间。引入第一个可升级的并行路径视觉化算法——颗粒追踪法。主要用来表述矢向量场的结构与方向。

存在一些挑战:1,尽管颗粒独立,但是会随着时间漂移到其它空域,有要求很高的处理机间通信,2,每一个处理器处理颗粒的数目不同,导致工作量不均匀。

新的算法:支持更多层次细节,低通信要求,有效的平衡工作量。使科学家们看到前所未有的细节,在不同的抽象层次,更高的交互性。

 

大规模并行渲染,可升级的渲染的主要瓶颈是图像混合步骤(由不同处理器产生的不同图像合成一个完整的图像),它要求内在处理器通信。并行图像融合算法中二进制转换(binary swap)是最可升级的一种算法。高效有且只在当处理器的数目是2的次方。开发一个变化的binary swap算法2-3swap在IBM Blue Gene/P and Cray XT4对于任何数目的处理器,使开发并行渲染的科学家们binary swap的安装实施变得可能。

 

In Situ Visualization

On-the-fly

On-the-Fly功能:此功能是串口自适应功能,设备在使用的过程中必然存在串口波特率、检验位、比特位和RTS/CTS等的设置。许多情况下,用户不是很清楚串口属性参数的具体设置,即使清楚,但设置起来也是很繁琐的事情。此外还有一些用户的串口设备采用了多种传输速率或校验形式进行串口数据传输,固定不变的手动设置参数显然无法满足需求。On-the-Fly功能通过驱动程序实时的监听串口传输线路,实时调整串口参数,达到串口的自适应功能。(建议用户在选用此功能后,对串口属性参数设置一个默认值。)   

 

 

视觉化是个后期处理的过程,把模拟输出移动到视觉化机器太高以至于不能让视觉化变得简便。一个更好的处理方式既不是移动数据也不是保留一小部分必须要移除的数据。这种方法的实现通过模拟和视觉化计算运行在同一个并行超级电脑上,所以数据可以被分享。所以可以直接渲染图像和提取特征,比为了on-the-fly和后期的检验存储全部的原始数据更小,降低了早期在数据分析管道数据存储和转移的代价,优化了整体的科学发现过程。但是需要超级计算机和编码困难,很少被采纳。

 

为了使科学家们能够研究全部规模的由模拟产生的数据,提出了模拟时间特征提取,是一个可行解决方案对于大型数据。在模拟过程长所有相关的数据关于模拟域已经为提取算法准备好。

优点:渲染原位数据监视和操纵模拟,即使在运行监视不可行的时候因为运行的时间或计算的天性,它依然可以产生一个动画描述选择模拟的部分。在大量的数据被删除的情况在原位视觉化依然可行。一重启文件,动画就可以抓住整体的模拟一个特定的重要模型现象。

 

挑战:一,视觉化的编码一定要与模拟编码交互。为了优化存储必须用模拟和视觉化代码分享相同的数据结构避免复制数据。二,视觉化工作量的平衡更加难。三,视觉化算法一定要传递减弱震波I/O为了传递渲染结果。

 

为了更好的支持后期处理视觉化,我们还开发了原位数据编码算法,索引方法,增加的4D特征提取和追踪算法和数据质量测量方法。孤立视觉化研究学者不能达到最终的目标需要合作。

 

视觉化工具

Visualization Tools

Scalability

可扩展性;可伸缩性;扩充性

建立视觉化工具可以用于广泛的领域,包括可拍的任务融合先进技术,其中有相互矛盾的需要在应用结构上,数据类型,相互模式。对于最大化应用,这样的工具也可以很好地执行在

各种结构:个人笔记本,特殊化的并行视觉化硬件远程交互方法,巨大的并行超级电脑。

 

为了部署下一代时候就视觉化技术,我们主要使用Para View 应用和结构。它包括必要的可适应的数据结构,时间范围控制,并行可测量性Para View的模块结构和多客户路径包括插件程序和脚本程序,允许快速的多种视觉化技术的融合。为了适应最新的视觉化技术,正在开发的技术必须适应变化的地形要求和支持硬件。

 

一千兆规模的计算机也提供了给很多新的的模式分析的设备。有了更高的保真度模拟来源于量化不确定性的能力。对比分析对于确定模拟的正确性和确认物理现象相关的结果。比一千兆规模的计算机,整体运行可以有更高的保真度或者更大的范围。这三个分析在现在视觉化工具中都没有实现,这个问题我们必须纠正为了有效的可持续性分析。

 原文见附件