大数据程序:使用Spark和R编程语言的大数据程序

时间:2024-03-05 08:51:47
【文件属性】:

文件名称:大数据程序:使用Spark和R编程语言的大数据程序

文件大小:186.11MB

文件格式:ZIP

更新时间:2024-03-05 08:51:47

Java

大数据程序 使用Spark MLlib和ML库以及R编程语言的大数据程序 R编程 回归:我们考虑了特征/预测变量仅线性出现在模型中的情况。 对于Credit数据集,与常规线性模型相比,岭回归和套索仅做了很小的改进。 我们可以添加到模型中的最简单的非线性类型是特征的成对相互作用。 如果xj和xk是不同的特征,则意味着我们也将xjxk视为特征。 在R中,成对交互非常容易实现:X = model.matrix(balance〜。*。,Credit)[,-1](1)成为新的设计矩阵。 那个工程 。 ∗。 意味着考虑不同特征的所有成对乘法。 广义加性模型:我们查看了Credit数据集,将注意力集中在收入,限额和学生这一要素上,以作为平衡的预测指标。在此问题中,我们将在分析中将年龄替换为限额。 具体来说,像以前一样包括学生,并以具有4个*度的自然样条合并收入的影响。 使用自然样条线还可以考虑年龄的


【文件预览】:
Big-data-Programs-master
----hadoop_2.8.0_jars_files.zip(59.98MB)
----R Programming()
--------Credit.csv(26KB)
--------Regression.R(3KB)
--------Clustering.R(4KB)
--------Regression with high-dimensional data.R(2KB)
--------parkinsons.csv(32KB)
--------Generalised additive models.R(2KB)
----Hadoop Cluster Program()
--------runScript.sh(6KB)
--------SparkClassifier.jar(9KB)
--------kdd.data(4.85MB)
--------SetupHadoopClasspath.csh(14KB)
--------DecisionTree.java(7KB)
--------Steps to copy files into hdfs.txt(194B)
--------SampleOutput.txt.log(6KB)
--------readme.txt(2KB)
--------LogisticRegressionCLassifier.java(7KB)
--------SetupSparkClasspath.csh(361B)
----.Rhistory(0B)
----Hadoop Cluster Program 2()
--------Commercial Detection - Spark Code()
--------Cleaned Data()
--------Uncleaned Original Data()
--------SetupHadoopClasspath.csh(14KB)
--------Spark_Cluster.jar(6KB)
--------CleanData.java(4KB)
--------SampleOutput.txt(2KB)
--------CommercialDetection.java(10KB)
--------readme.txt(3KB)
--------SetupSparkClasspath.csh(361B)
----README.md(5KB)

网友评论