文件名称:distributed-computing-pyspark:使用PySpark进行分布式计算
文件大小:1.96MB
文件格式:ZIP
更新时间:2024-04-21 18:06:51
graphs pmi networks text-analytics JupyterNotebook
分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
【文件预览】:
distributed-computing-pyspark-master
----spark_streaming.ipynb(20KB)
----simple_tokenize.py(244B)
----sql_spark_dataframes.ipynb(34KB)
----spam_classification_sgd_spark.ipynb(106KB)
----desktop.ini(132B)
----.vscode()
--------desktop.ini(132B)
--------settings.json(70B)
----Shakespeare.txt(5.08MB)
----PageRank Simulation.xlsx(27KB)
----README.md(730B)
----PMI_Python.ipynb(15KB)
----page_rank.ipynb(14KB)
----PMI_Spark.ipynb(23KB)