datagit:关于使用 Python、git 和 Jupyter notebook 进行数据科学工作流程的随机笔记

时间:2024-07-23 06:37:59
【文件属性】:

文件名称:datagit:关于使用 Python、git 和 Jupyter notebook 进行数据科学工作流程的随机笔记

文件大小:3KB

文件格式:ZIP

更新时间:2024-07-23 06:37:59

数据 关于使用 Python、pandas、git 和 Jupyter notebook 进行数据科学工作流程的随机笔记 语境 假设您正在使用 Python、pandas 和 IPython/Jupyter notebook 分析一个大型数据集。 您有一个data/目录,用于存储原始的原始数据集。 由于这些非常混乱和复杂,您首先创建一个cleaning.ipynb notebook 来清理数据集、删除丢失的数据、创建新的用户友好字段、删除不必要的标签等。您最终会得到一个DataFrame 10 或 100 倍的干净DataFrame比原始数据集。 接下来,您将其保存到某个文件中,比如cleaned.csv 。 真正的数据科学的东西可以开始了。 您创建一个新的analyze.ipynb笔记本你开始通过打开cleaned.csv分析它之前。 当然,您通过版本控制您的两个ipynb笔记本来跟


【文件预览】:
datagit-master
----README.md(5KB)

网友评论