文件名称:pyjanitor:清理用于数据清理的API。 R包Janitor的Python实现
文件大小:5.36MB
文件格式:ZIP
更新时间:2024-05-18 15:20:09
data pydata pandas data-engineering dataframe
pyjanitor pyjanitor是R包的Python实现,并提供用于清除数据的clean API。 为什么要看门人? pyjanitor最初是R程序包的一个端口,已从一组便捷的数据清理例程演变为使用范式的实验。 数据预处理通常由一系列步骤组成,这些步骤涉及将原始数据转换为可理解/可用的格式。 这些步骤系列必须按一定顺序运行才能取得成功。 我们以基本数据文件为起点,并对它执行操作,例如删除空/空行,将其替换为其他值,添加/重命名/删除数据列,过滤行等。 更正式地讲,这些步骤以及它们之间的关系和依赖性通常称为有向无环图(DAG)。 pandas API对于Python数据科学生态系统而言是无价的,并且作为API的一部分实现了方法子集的方法链接。 例如,通过适当的pd.DataFrame方法调用可以完成重置索引( .reset_index() ),删除空值( .dropna()