PySpark

时间:2024-04-02 10:23:38
【文件属性】:

文件名称:PySpark

文件大小:2KB

文件格式:ZIP

更新时间:2024-04-02 10:23:38

PySpark 有关PySpark / Spark的一些信息: PySpark是适用于Spark的Python API Spark不是一种编程语言 PySpark允许您编写在分布式集群上并行执行的基于python的数据处理应用程序 Apache Spark是一个分析处理引擎,用于大规模,强大的分布式数据处理以及amchine学习应用程序 Hadoop和Mapreduce的发明是为了解决大数据存储和处理问题 Hadoop是一组旨在在分布式计算机集群上运行的软件库,Mapreduce是数据处理引擎 Mapreduce的问题:数据处理仅在磁盘上进行 如果在磁盘上进行处理,Spark的执行速度比Mapreduce快10倍,但是在内存中执行的速度比Mapreduce快100倍 Spark以最有效,最可靠和最快的方式处理数据 Spark由大量数据分析和机器学习库组成 Apache Spark在主


【文件预览】:
PySpark-main
----README.md(3KB)

网友评论