文件名称:Balancing-data-for-SNP-identification
文件大小:2KB
文件格式:ZIP
更新时间:2024-05-16 01:13:03
R
SNP识别的平衡数据 数据 该数据集由具有25个变量(即24个预测特征)和标签或类数据的17637个数据组成。 类数据由标识SNP正的+1类和标识SNP负的-1类组成。 方法 使用的方法是使用带有径向基函数(RBF)的C分类公式的支持向量机(SVM)。 前处理 类分布不平衡,因此有必要平衡数据。 在此分析中,使用了过欠采样技术,即使用RStudio中的ROSE包的随机过采样示例(ROSE)。 采样之前和之前的类分布差异可以在图5中看到。 造型 使用e1071软件包进行SVM的数据训练,并具有10倍交叉验证序列控制。 以前,将70%的数据划分为训练数据,将30%的数据划分为测试数据。 产生的最佳模型的值为c = 16和sigma = 0.0356。 模型评估 精确 FPR FNR 灵敏度 专一性 F测度 0.97 0.02 0.03 0.97 0.97 0.97 从采样结果数
【文件预览】:
Balancing-data-for-SNP-identification-master
----identifikasiSNP.R(2KB)
----README.md(2KB)