dsc-more-on-missing-data-dc-ds-021720

时间:2024-04-18 16:20:42
【文件属性】:

文件名称:dsc-more-on-missing-data-dc-ds-021720

文件大小:406KB

文件格式:ZIP

更新时间:2024-04-18 16:20:42

JupyterNotebook

有关丢失数据的更多信息 介绍 既然您已经了解了如何处理丢失的数据的各种方法,那么该是时候进一步讨论如何在特定情况下选择合适的方法了。 通常,许多人会立即求助于缺失值的特征的均值或中位数。 这可能是一种有效的方法,因此为什么它是标准的,但确实有一些警告。 例如,这样做可以减少数据集的整体差异,在执行后续分析或对数据集进行机器学习算法训练时应将其考虑在内。 目标 你将能够: 评估并执行最佳策略,以处理给定数据集的缺失,重复和错误值 确定估算值如何影响数据的分布 检查数据是否有重复或多余的值并将其删除 import pandas as pd import matplotlib . pyplot as plt % matplotlib inline df = pd . read_csv ( 'titanic.csv' ) df . head () <style scoped> .datafr


【文件预览】:
dsc-more-on-missing-data-dc-ds-021720-master
----index.ipynb(201KB)
----.learn(87B)
----images()
--------missing_data_options.png(94KB)
----Untitled.ipynb(72B)
----CONTRIBUTING.md(2KB)
----LICENSE.md(1KB)
----index_files()
--------index_3_0.png(134KB)
----titanic.csv(106KB)
----README.md(15KB)
----.gitignore(64B)

网友评论