distributed-computing-pyspark:使用PySpark进行分布式计算下载

【文件属性】：

文件名称：distributed-computing-pyspark:使用PySpark进行分布式计算

文件大小：1.96MB

文件格式：ZIP

更新时间：2024-04-21 18:06:51

graphs pmi networks text-analytics JupyterNotebook

分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。文本分析：PySpark中的逐点相互信息计算文本文件中出现的所有单词的一个或多个标记的PMI。图/网络分析：PySpark中的个性化PageRank算法实现PageRank算法的修改版本，其中参照给定的源节点执行排名。修改有两个方面：随机仅跳到源节点由于节点悬空而造成的质量损失将完全转移到源节点，而不是在整个图形上重新分配使用Spark数据帧和Spark SQL查询TPCH

立即下载

【文件预览】：
distributed-computing-pyspark-master
----spark_streaming.ipynb(20KB)
----simple_tokenize.py(244B)
----sql_spark_dataframes.ipynb(34KB)
----spam_classification_sgd_spark.ipynb(106KB)
----desktop.ini(132B)
----.vscode()
--------desktop.ini(132B)
--------settings.json(70B)
----Shakespeare.txt(5.08MB)
----PageRank Simulation.xlsx(27KB)
----README.md(730B)
----PMI_Python.ipynb(15KB)
----page_rank.ipynb(14KB)
----PMI_Spark.ipynb(23KB)

秒客网

distributed-computing-pyspark:使用PySpark进行分布式计算

网友评论

相关文章