python-bigData

时间:2024-05-23 03:33:22
【文件属性】:

文件名称:python-bigData

文件大小:2.05MB

文件格式:ZIP

更新时间:2024-05-23 03:33:22

HTML

适用于大数据分析的Python Python是用于开发软件和数据科学应用程序的流行编程语言。 它的流行源于许多因素,例如简单性,可读性,可移植性等。因此,与C或Fortran相比,Python速度较慢,并且不能很好地管理内存。 在分析小数据集时,速度和内存管理上的这些限制可能并不重要,但在分析大数据集时却成为瓶颈。 基于矢量化,并行化,及时编译和分布式任务执行的技术已被Python社区广泛采用,以解决与大数据相关的挑战。 在这些示例中,我们将介绍一些适用于大规模数据分析的技术,并回答以下问题: 如何加快数据分析? NumPy,Numba和Dask 当数据集大小超出可用物理内存时该怎么办? 达阵数组,包装袋和数据框 在对大数据集进行机器学习时如何分配工作负载? 达拉斯机器学习(Scikit-Learn,PyTorch,Tensorflow和Keras的API) 您可以在Binder


【文件预览】:
python-bigData-main
----Slides()
--------dask_intro.slides.html(702KB)
--------Data()
--------dask_delayed.slides.html(1MB)
--------dask_arrays.slides.html(580KB)
--------CARCC-PyBigData-Jan5th2021.pdf(146KB)
--------numba_basics.slides.html(595KB)
--------dask_dataframe.slides.html(663KB)
--------dask_machine_learning.slides.html(794KB)
--------numpy_basics.slides.html(625KB)
----numba_basics.ipynb(30KB)
----README.md(1KB)
----numpy_basics.ipynb(48KB)
----dask_intro.ipynb(141KB)
----dask_dataframe.ipynb(99KB)
----dask_delayed.ipynb(447KB)
----dask_machine_learning.ipynb(220KB)
----dask_arrays.ipynb(18KB)

网友评论