标准化
注:均值的意义不是很大,容易受到特别大或特别小的数的严重影响。使得得出的结果没有代表性,不够准确
Data Description
χ2的测试
下象棋与不下象棋的人数之比为1:4,下图红色代表假设下象棋与喜欢科幻小说不相关,这时相应的人数之比也应该是1:4
数据的可视化(Data Visualization)
高维数据的处理——Box Plots
高维数据的处理——Parallel Coordinates
文献的可视化——CiteSpace
Gephi
Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。可用作:探索性数据分析,链接分析,社交网络分析,生物网络分析等。
gephi是一款信息数据可视化利器。
注:r=0 说明X和Y线性不相关,但不一定不相关。
箱形图(Box Plots)
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
作用:能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。
显示数据的离散的分布情况效果不错
两个可视化软件的名字:CiteSpace、Gephi