拓端数据tecdat|R语言多元逐步回归模型分析房价和葡萄酒价格:选择最合适的预测变量
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。确实, 对于样本大小,在线性模型中可以考虑 的预测变量最大数量为 p 。或等效地,使用预测变量p 拟合模型需要最小样本量。如果我们考虑p = 1 和 p = 2 的几何,这一事实的解释很简...
拓端tecdat|R语言编程指导中的Stan概率编程MCMC采样的贝叶斯模型
R语言中的Stan概率编程MCMC采样的贝叶斯模型 概率编程使我们能够实现统计模型,而不必担心技术细节。这对于基于MCMC采样的贝叶斯模型特别有用。 stan简介Stan是用于贝叶斯推理的C ++库。它基于No-U-Turn采样器(NUTS),该采样器用于根据...
拓端tecdat|R语言中的多类别问题的绩效衡量:F1-score 和广义AUC
R语言中的多类别问题的绩效衡量:F1-score 和广义AUC 对于分类问题,通常根据与分类器关联的混淆矩阵来定义分类器性能。根据混淆矩阵 ,可以计算灵敏度(召回率),特异性和精度。 对于二进制分类问题,所有这些性能指标都很容易获得。 非得分分类器的数据为了...
拓端tecdat|R语言用线性回归模型预测空气质量臭氧数据
R语言用线性回归模型预测空气质量臭氧数据 尽管线性模型是最简单的机器学习技术之一,但它们仍然是进行预测的强大工具。这尤其是由于线性模型特别容易解释这一事实。在这里,我将讨论使用空气质量数据集的普通最小二乘回归示例解释线性模型时最重要的方面。空气质量数据集空气质...
拓端tecdat|R语言代写深度学习不同模型对比分析案例
介绍深度学习是机器学习最近的一个趋势,模拟高度非线性的数据表示。在过去的几年中,深度学习在各种应用中获得了巨大的发展势头(Wikipedia 2016a)。其中包括图像和语音识别,无人驾驶汽车,自然语言处理等等。 今天,深度学习对于几乎所有需要机器学习的任务都是非常有效的。但是,它特别适合复杂的分层...
拓端tecdat|Python代写利用LSTM模型进行时间序列预测分析 - 预测爱尔兰的电力消耗
此示例中,神经网络用于使用2011年4月至2013年2月期间的数据预测都柏林市议会公民办公室的能源消耗。 每日数据是通过总计每天提供的15分钟间隔的消耗量来创建的。LSTM简介LSTM(或长期短期存储器网络)允许分析具有长期依赖性的顺序或有序数据。当涉及到这项任务时,传统的神经网络不足,在这方面,L...
拓端tecdat|R语言代写用数据告诉你出租车资源配置是否合理
互联网+下不同时空如何建立合适的指标分析出租车“供求匹配”的程度?由于出租车供求匹配,以及一系列的补贴方案涉及到可行性的问题,我们采用出租车轨迹数据做出相应的解答。 出租车上下客高峰期 查看不同城市的出租车上下客高峰期的时间段。从深圳市的上下车比例来看,凌晨左右有一定的客流量,到6点之前是客流量...
拓端tecdat|R 语言代写绘制功能富集泡泡图
功能富集泡泡图功能富集分析用来展示某一组基因(一般是单个样品上调或下调的基因)倾向参与哪些功能调控通路,对从整体理解变化了的基因的功能和潜在的调控意义具有指导作用,也是文章发表中一个有意义的美图。通常会用柱状图、泡泡图和热图进行展示。热图的画法之前已经介绍过,这次介绍下富集分析泡泡图,其展示的信息...
拓端tecdat|Python辅导Monte Carlo K-Means聚类实战研究
Python Monte Carlo K-Means聚类实战研究 在本文中,188个国家基于这19个社会经济指标聚集在一起,使用Python实现的蒙特卡罗K-Means聚类算法。通过将类似国家分组在一起并对其进行概括,聚类可以帮助减少识别有吸引力的投资机会所...
拓端tecdat|R语言编程指导ggmap空间可视化机动车交通事故地图
R语言ggmap空间可视化机动车交通事故地图 在本文中,我使用ggmap可视化纽约市的交通事故。 数据来自纽约市开放数据。我的数据范围是2012年至2015年。该数据跟踪车辆的类型,发生事故的街道的名称以及事故的经度和纬度坐标。两个坐标都保存为单个字符变量,称...
拓端tecdat|R语言编程指导用神经网络改进Nelson-Siegel模型拟合收益率曲线分析
R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析 在先前我们提供了Nelson-Siegel模型收敛失败的示例,我们已经展示了它的一些缺陷。蒙特卡洛模拟帮助我们理解:for(j in 1:N_SIMULATIONS){ oldYi...
拓端tecdat|采用SPSS Modeler编程指导的Web复杂网络对所有腧穴进行分析
采用SPSS Modeler的Web复杂网络对所有腧穴进行分析 背景:本次腧穴配伍关联规则分析,以针灸治疗FC的113例处方中使用频次在5次及以上的25种腧穴为关联对象。将前项最小支持度设为12%,规则的最小置信度设为85%,得出最常用的腧穴配伍,按照置信度的...
拓端tecdat|R语言编程指导用Nelson Siegel和线性插值模型对债券价格和收益率建模
用R语言用Nelson Siegel和线性插值模型对债券价格和收益率建模 债券基础 键 是一个合同,作者与初始付款义务以预定的时间(s)(成熟)的钱付预定量。这类似于借入利息和付款结构的钱。零息债券 是一种特殊类型的键,其在到期时支付出仅一次没有中间付款...
拓端tecdat|R语言编程指导ggmap空间可视化机动车碰撞–街道地图热力图
R语言ggmap空间可视化机动车碰撞–街道地图热力图 在本文中,我将创建纽约市机动车碰撞的市镇级热图。数据来自纽约市开放数据。特别是,我将从镇级碰撞到街道级碰撞。在下面,我加载ggmap包和数据。library(ggmap)comm=regexpr(',',d_...
拓端数据tecdat|使用Python中Keras的LSTM递归神经网络进行时间序列预测
时间序列预测问题是预测建模问题中的一种困难类型。与回归预测建模不同,时间序列还增加了输入变量之间序列依赖的复杂性。用于处理序列依赖性的强大神经网络称为 递归神经网络。长短期记忆网络或LSTM网络是深度学习中使用的一种递归神经网络,可以成功地训练非常大的体系结构。在本文中,您将发现如何使用K...
拓端数据tecdat|在Python和R中使用交叉验证方法提高模型性能
介绍模型表现差异很大的可能原因是什么?换句话说,为什么在别人评估我们的模型时会失去稳定性?在本文中,我们将探讨可能的原因。我们还将研究交叉验证的概念以及执行它的一些常用方法。 目录为什么模型会失去稳定性?什么是交叉验证?交叉验证的几种常用方法验证集方法留一法交叉验证(LOOCV)k折交叉验证分层k折...
拓端tecdat|R语言人口期望寿命统计预测方法
本文对人口统计预测方法进行讨论。首先,我们将看到基本的静态方法。在使用数据集之前,我们使用“标准” 生命表。 download.file(url,"mortal") tables=readHTMLTable("morta下面是获取数据集的代码 tables...
拓端tecdat|sas代写神经网络:构建人工神经网络模型来识别垃圾邮件
神经网络是一种非常通用的灵活预测模型,可用于解决各种问题,包括分类,降维和回归。现实世界中的一些业务应用示例包括图像处理,医疗诊断,金融服务和欺诈检测。此样本说明如何使用SAS®In-Memory Statistics中的NEURAL语句来构建人工神经网络模型来识别...
拓端tecdat|R语言编程指导中自编基尼系数的CART回归决策树的实现
本文为了说明回归树的构造(使用CART方法),考虑以下模拟数据集, > set.seed(1) > n=200 > X1=runif(n) > X2=runif(n) > P=.8*(X1<.3)*(X2<.5)...
拓端tecdat|R语言编程指导非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
本文将分析了几种用于制定保险费率的平滑技术。保费没有细分该价格应与纯溢价相关,而纯溢价与频率成正比,因为没有协变量,预期频率应为 Deviance Residuals: Min 1Q Median 3Q Max -0.5033 -0.3719 -0.2588...