文件名称:在线新闻受欢迎度:来自新闻数据的预测模型
文件大小:5.64MB
文件格式:ZIP
更新时间:2024-03-12 21:45:06
r exploratory-data-analysis cross-validation predictive-modeling R
在线新闻受欢迎 分配的数据是指Mashable受欢迎的网站( )的特征。 因此,此数据集不共享原始内容,而是与之关联的一些统计信息。 原始内容可以使用提供的网址公开访问和检索。 所有站点和相关数据已于2015年1月8日下载。作者使用随机森林分类器和滚动窗口作为评估方法,估算了相对性能值-参见Fernandes等。 (2015)了解有关如何设置相对效果值的更多详细信息。 该研究的主要变量是衡量网站/帖子受欢迎程度的股份数量。 我们有兴趣确定成功职位的构成要素以及该职位成为病毒式传播所需要的条件。 每个学生将处理10000个观察值的随机子样本,以将其用于训练模型和进行推理。 所有学生都将使用10000个观察值的通用评估/测试数据集。 您应该首先进行一些探索性数据分析。 可视化数据应该可以使您深入了解该数据集的某些特殊性。 配对比较将帮助您也了解数据隐含的关联。 主要目的是确定用于预测帖
【文件预览】:
Online-News-Popularity-master
----OnlineNewsPopularity_test.csv(4.75MB)
----FinalAssignment.R(19KB)
----Online_News_Popularity.pdf(3.44MB)
----README.md(5KB)
----alldata_onlinenews_33.csv(1.42MB)