R语言预测实战(游浩麟)笔记1

预测流程

　　　　确定主题。指标、主体、精度、周期、用户、成本和数据七要素。

　　　　收集数据。内容划分、收集原则、

　　　　选择方法。主要方法有自相关分析、偏相关分析、频谱分析、趋势分析、聚类分析、关联分析、相关分析、互相关分析、典型相关分析、对应分析等。

　　　　分析规律。常见的规律有趋势性、周期性、波动性、相关性、相似性、项关联性、段关联性。

　　　　建立模型。特征构建、特征选择、算法选择(可理解性、性能、数据要求)、构建模型(分割数据集)、测试模型、模型优化、评估效果、发布模型。

分析方法
自相关分析，同一时间序列在不同时刻的取值的相关程度。函数acf,主要参数有lag.max最大滞后阶数，type设定计算acf的字符串，有相关系数、协方差、偏相关系数三种。
偏相关分析，pacf.
简单相关分析，一种不能用函数关系表示的关系。可以用散点图和相关图来观测。pairs/scatterplotMatrix可以绘制各个变量的散点图，三维的可以使用car包的scatter3d函数。相关图可以用corrgram，corrplot包，函数名即为包名
互相关分析，两个时间序列在做任意两个不同时刻的相关程度，ccf，参数lag.max, type
典型相关分析，反映两组变量的整体相关性，通过构建综合指标进行，stats包cancor函数，参数x，y为n行的矩阵xcenter，ycenter表示是否进行中心化。
对应分析，将样本取值和变量取值联系起来，主要应用在市场细分、产品定位方面，MASS包corresp函数。
频谱分析，将时域信号转换为频域信号，stats包spec.pgram函数计算谱密度，参数意义不明......不懂这玩意儿。
趋势分析，TTR包中SMA和EMA函数，SMA计算的是n日的平均值，就是所谓的移动平均线(ps,那我还自己写了一个类似的有何用),EMA指数加权平均，wilder和ratio配置权重。
聚类分析，聚类方法相当的多....多到怀疑人生，见过最牛逼的是13年发表哦在science上面的聚类，真花Q厉害。最简单的kmeans，参数algorithm课选择算法，trace可以跟踪运算过程；另一种是系统聚类，将独立样本看作一类，然后缩减，hclust。
关联规则分析，在交易数据、关系数据等信息中，挖掘对象集合间的规律或者模式的过程。关联分析的主要算法有Apriori和Eclat。arules包apriori和eclat函数。
序列模式挖掘，SPADE算法。需要考虑事务间的先后顺序。该类算法分为两类，一类是类Apriori算法(GSP、SPADE)，另一类是基于划分的模式生长算法(FreeSpan、perfixSpan)。arulesSequences包中的cspade函数。

秒客网

R语言预测实战(游浩麟)笔记1

相关文章