文件名称:dask-scaling-dataframe:Python和Dask
文件大小:14.97MB
文件格式:ZIP
更新时间:2024-03-30 05:16:47
python big-data pandas exercises dask
Python和Dask:扩展DataFrame 该存储库包含有关Python和Dask的幻灯片,练习和答案:缩放数据框。 本教程的目标是教给您一个在熊猫中处理表格数据方面经验丰富的人,以解决不适合在一台计算机上存储的问题。 为什么这门课程存在 Python最受欢迎的数据科学库(pandas,numpy和scikit-learn)被设计为在一台计算机上运行,并且在某些情况下使用单个处理器运行。 无论这台计算机是笔记本电脑还是具有96核的服务器,您的计算和内存都受到您可以访问的最大计算机大小的限制。 在本课程中,您将学习如何使用Dask(用于并行和分布式计算的Python库)通过跨多个内核扩展计算和内存来绕过此约束。 Dask提供了与pandas,numpy和scikit-learn之类的Python库的集成,因此您可以扩展计算量,而不必学习全新的库或大量重构代码。 先决条件: Wo
【文件预览】:
dask-scaling-dataframe-master
----02-dask-dataframe.ipynb(662KB)
----03-dask-performance.ipynb(8KB)
----binder()
--------environment.yml(183B)
----01-10-minutes-to-dask.ipynb(299KB)
----exercises()
--------02-exercises.ipynb(3KB)
--------01-exercises.ipynb(4KB)
----images()
--------taxi-small.jpg(47KB)
--------progress.png(44KB)
--------task-stream.png(93KB)
--------dask-dataframe.svg(9KB)
----scripts()
--------install.sh(203B)
----02a-schedulers.ipynb(2KB)
----solutions()
--------01-solutions.ipynb(203KB)
--------02-solutions.ipynb(17KB)
----LICENSE(17KB)
----environment.yml(241B)
----prep()
--------00-prep.ipynb(37KB)
--------00a-prep-payroll.ipynb(6KB)
----README.md(4KB)
----data()
--------payroll-small()
--------taxi-small()
--------.gitignore(47B)
----.gitignore(2KB)