pyspark-tutorial:PySpark-Tutorial提供使用PySpark的基本算法

时间:2024-06-12 03:01:20
【文件属性】:

文件名称:pyspark-tutorial:PySpark-Tutorial提供使用PySpark的基本算法

文件大小:3.16MB

文件格式:ZIP

更新时间:2024-06-12 03:01:20

Python

PySpark教程 PySpark是用于Spark的Python API。 PySpark教程的目的是提供使用PySpark的基本分布式算法。 PySpark具有用于基本测试和调试的交互式外壳程序( $SPARK_HOME/bin/pyspark ),不应将其用于生产环境。 您可以使用$SPARK_HOME/bin/spark-submit命令来运行PySpark程序(可用于测试和生产环境) PySpark示例和教程 通过使用CombineByKey()查找平均值 如何过滤RDD元素 如何找到平均值 笛卡尔积:rdd1.cartesian(rdd2) 按键排序:sortByKey()升序/降序 如何添加指数 地图分区:由示例创建的mapPartitions() 如何最小化Spark的细节 PySpark教程和参考... PySpark入门-第1部分 PySpark入门-第2部


【文件预览】:
pyspark-tutorial-master
----data()
--------foxdata.txt(62B)
----LICENSE.md(556B)
----README.md(4KB)
----tutorial()
--------basic-multiply()
--------wordcount()
--------cartesian()
--------basic-average()
--------add-indices()
--------basic-join()
--------.DS_Store(6KB)
--------basic-sum()
--------basic-filter()
--------basic-union()
--------basic-map()
--------dna-basecount()
--------split-function()
--------bigrams()
--------basic-sort()
--------top-N()
--------combine-by-key()
--------map-partitions()
----howto()
--------README.md(5KB)
--------download_install_run_spark.md(4KB)
--------minimize_verbosity.md(993B)

网友评论