文本可视化-mt8516 schematic

时间:2024-07-05 15:17:47
【文件属性】:

文件名称:文本可视化-mt8516 schematic

文件大小:3.69MB

文件格式:PDF

更新时间:2024-07-05 15:17:47

大数据

3.1 文本可视化 文本信息是大数据时代非结构化数据类型的典型代表,是互联网中最主要的信息类型,也是物联网各种传 感器采集后生成的主要信息类型,人们日常工作和生活中接触最多的电子文档也是以文本形式存在.文本可视 化的意义在于,能够将文本中蕴含的语义特征(例如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直 观地展示出来. 如图 4所示,典型的文本可视化技术是标签云(word clouds或 tag clouds)[5156],将关键词根据词频或其他规 则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化.目前,大多用字 体大小代表该关键词的重要性,在互联网应用中,多用于快速识别网络媒体的主题热度.当关键词数量规模不断 增大时,若不设置阈值,将出现布局密集和重叠覆盖问题,此时需提供交互接口允许用户对关键词进行操作,例 如 ManiWordle[53]. Fig.4 Wordle and ManiWordle[52,53] 图 4 标签云举例[52,53] 文本中通常蕴含着逻辑层次结构和一定的叙述模式,为了对结构语义进行可视化,研究者提出了文本的语 义结构可视化技术.如图 5所示是两种可视化方法:DAViewer[57]将文本的叙述结构语义以树的形式进行可视化, 同时展现了相似度统计、修辞结构、以及相应的文本内容;DocuBurst[58]以放射状层次圆环的形式展示文本结 构.基于主题的文本聚类是文本数据挖掘的重要研究内容,为了可视化展示文本聚类效果,通常将一维的文本信 息投射到二维空间中,以便于对聚类中的关系予以展示.例如,Hipp[59]提供了一种基于层次化点排布的投影方 法,可广泛用于文本聚类可视化.上述文本语义结构可视化方法仍建立在语义挖掘基础上,与各种挖掘算法绑定 在一起. Fig.5 DAViewer and DocuBurst[57,58] 图 5 文本语义结构树[57,58] 文本的形成与变化过程与时间属性密切相关,因此,如何将动态变化的文本中时间相关的模式与规律进行 可视化展示,是文本可视化的重要内容.引入时间轴是一类主要方法,如图 6 所示,ThemeRiver[60]用河流作为隐 喻,河流从左至右的流淌代表时间序列,将文本中的主题按照不同的颜色的色带表示,主题的频度以色带的宽窄


网友评论