这一篇主要介绍数据分析模块实现的算法。
分类模块
流程图
功能
本模块实现了数据分类功能,系统提供了SVM,KNN,决策树,随机森林等分类算法。首先通过对测试集的数据进行模型构建,在构建模型过程中我们可以对模型进行参数设置,模型构建完成之后,我们对预测集进行预测,最后将分类的结果导出。
实现原理
聚类模块
流程图
功能
本模块实现了数据聚类功能,系统提供了kmeans,clara,PAM,Agnes,Diana算法。针对不同的算法,用户需要设置不同的参数,然后系统根据用户设定的参数进行数据聚类,聚类结果将以图和表的形式给用户显示出来。
实现原理
时间序列
流程图
功能
本模块实现了对时间序列数据分析的功能,用户上传时间序列数据,然后设置时间序列参数,通过显示出来的时间序列,我们判断它是否满足相加模型,如果数据满足相加模型我们就不进行处理,否则我们对数据进行相应的处理,使得数据满足相加模型,当数据满足相加模型之后我们对数据进行时间序列建模,我们可以选择自动分析和手动分析,自动分析时系统会根据数据自行设定arima模型的参数,进行相应的分析,手动分析将由用户自己对模型的参数进行设定,模型建立后我们还可以对模型进行评估,看模型是否是最优模型,能否满足用户的需求,最后用户利用模型进行预测。
实现原理
关联规则挖掘
流程图
功能
上传事务型或记录型数据集作为数据源。系统提供了Apriori算法进行关联规则的分析。Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。