文件名称:evidence-based-possibly-best-practices-in-classical-ML
文件大小:402KB
文件格式:ZIP
更新时间:2024-05-09 19:34:18
JupyterNotebook
基于证据的经典ML最佳实践 在这个项目中,解决了二进制分类的问题。 该项目的数据来自 它描述了处理数据时采取的步骤。 从理论上和/或通过链接到文章,可以证明每个步骤的选择都是合理的。 另外,这是处理数据时获得的一些结果。 分析,数据清理 在这个阶段: 已检查的可用性: 值不正确 排放/极值和稀有类别, 复制品 通过。 特征分布被可视化。 图1.教育分类属性的每个级别上的对象数。 预处理数据,防止数据泄漏: 删除重复项。 删除了数据泄漏迹象。 删除/合并了稀有类别。 序号和二进制符号被编码为数字。 我们可视化了间隙的存在及其间隙的“相关性”(同一对象中间隙的存在)。 图2.可视化的差距。 黑柱是标志,白线是空隙。 图3.特征之间的间隙的“相关性”。 可以看出,ioan和外壳之间的间隙是针对同一对象的。 分类特征的编码 基于树的算法-随机森林和梯度提升显示了所
【文件预览】:
evidence-based-possibly-best-practices-in-classical-ML-main
----Bank marketing.ipynb(1.51MB)
----README.md(41KB)