使用数据挖掘通过不同筛查方法预测宫颈癌-研究论文

时间:2024-06-29 09:18:23
【文件属性】:

文件名称:使用数据挖掘通过不同筛查方法预测宫颈癌-研究论文

文件大小:805KB

文件格式:PDF

更新时间:2024-06-29 09:18:23

Boosted Decision Tree

宫颈癌仍然是全世界死亡的一个重要原因,因为有效获得宫颈筛查方法是一个巨大的挑战。 包括决策树算法在内的数据挖掘技术用于生物医学研究进行预测分析。 不平衡数据集是从加州大学欧文分校的数据集档案中获得的。 合成少数过采样技术 (SMOTE) 已用于平衡实例数量增加的数据集。 数据集包括患者年龄、怀孕次数、避孕药具使用情况、吸烟模式和性传播疾病 (STD) 的时间顺序记录。 Microsoft azure 机器学习工具用于模拟结果。 本文主要侧重于使用Boosted决策树、决策森林和决策丛林算法等数据挖掘技术,通过不同的筛查方法对宫颈癌进行预测,并基于AUROC(Area under Receiver operating特性)曲线、准确性、特异性进行了性能评估。和灵敏度。 使用10折交叉验证方法来验证结果,Boosted决策树给出了最好的结果。 提升决策树在 AUROC 曲线上提供了非常高的预测,为 0.978,而使用了 Hinslemann 筛选方法。 其他分类器得到的结果明显比boosted决策树差。


网友评论