文件名称:openclean-core:适用于Python的数据清理和数据分析库
文件大小:40.22MB
文件格式:ZIP
更新时间:2024-03-15 00:52:01
data-cleaning data-curation Python
openclean-Python的数据清理 关于 openclean是用于数据分析和数据清理的Python库。 该项目的动机是,数据准备仍然是许多数据科学项目的主要瓶颈。 数据准备需要进行概要分析以了解数据质量问题,并且需要进行数据操作以将数据转换为适合预期目的的形式。 尽管以前已经开发出了许多用于分析和清理数据的不同工具和技术,但是我们看到的这些工具的一个主要问题是缺乏在单个(统一)框架中访问它们的能力。 现有工具可以用不同的编程语言来实现,并且需要大量的精力来安装和接口。 在其他情况下,科学文献中已经发布了有希望的数据清理方法,但是没有适用的代码库。 我们认为,缺乏对现有工作的无缝访问是造成数据准备如此耗时的主要原因。 openclean的目标是将数据清理工具整合到一个简单易用的数据科学家环境中。 openclean允许用户编写和执行使用各种不同工具构建的清洗管道。 我们的目标是使