文本数据可视化
词云
词云是一个自动化的文本可视化工具。
词云的特点:1、自动提取高频词;2、呈现高频词;3、字体大小体现单词出现的次数。
文本可视化的重要意义:在于帮助用户快速地完成大量文本阅读和理解,并从中获取重要的信息。
文本数据:比如:小说、报纸、网页等
应用场景:电子商务、社交计算、商业智能、用户体验、预测分析、公共关系
文本可视化的基本任务
1、文本内容可视化:总结展现文本中的内容;展现文本所包含的情感;辅助大规模文本数据集的浏览。
2、文本关系可视化:展现文本文件之间的关系;展现文件内容的内在联系。
文本可视化的流程
文本内容可视化
1、基于关键词的文本内容可视化
2、基于特征的文本内容可视化
3、时序文档的文本内容可视化
基于关键词的文本内容可视化
比如;标签云、文本云、词云、wordle
方式:检索关键词并以模式排列;用颜色和大小进行编码。
上下文一致的词云技术
语义相关或者相近的词总会出现在相近位置
文本弧
围的螺线:文档中的句子
内部的单词:文档中的单词
字体、颜色:词频
位置:词的出现
文本指纹
揭示特征的分布规律;将特征用一系列像素图来表示
文本特征透镜
用于可视化一个文档集合中文本特征在不同粒度下的分布情况。
ConceptVector技术
利用单词在向量表达上的相似性来构建词典,或者说概念,以此来帮助用户检索和分析相关的文档。
时序词云
1、对文档集合进行时间划分
2、对文档按时间段进行可视化
3、结合交换技术
主题河流ThemeRiver
横轴:时间轴
每个颜色的河流:提取出来的一个主题
河流的宽度:主题讨论的热烈程度
文本关系可视化
分类:
1、句子层面的文本关系可视化
(1)单词树从句法层面呈现文本词汇的前缀关系。
单词树利用树形结构来可视化文本中的句子。
(2)短语网络
用节点链接图来展示无结构文本中语义单元彼此间的关系。
节点:词或者短语
边:用户指定的关系
箭头:关系的有向性
边的宽度:关系的频率
(3)句子树SentenTree
文档层面的文本关系可视化
星系视图
将每个文档看作一颗星星;将文档投影成点集;点与点之间距离与文档主题相似性成正比。
主题地貌
用等高线展现相似文档的分布;
山体高度:文档位置分布的疏密程度
等高线和颜色;文本分布的密度
文档越相似,则点分布越密集