文件名称:霸屏天下源码java-Hanhan-Spark-Python:使用过Sparkcorepython、Sparksql、SparkMLlib、S
文件大小:1.57MB
文件格式:ZIP
更新时间:2024-06-25 23:30:02
系统开源
霸屏天下源码java Hanhan-Spark-Python 我在这里编写的 Spark Python 代码使用的是 Spark1.5 ,可能不适用于更高版本。 资源 设置 要在不同情况下运行 Spark ,请查看 SFU 指南: 在 2021 年,我发现以这种方式导出 java_home 有效: 数据块 对比 worker 负责所有的工作量分配,分布式处理 driver主要是维护SparkContext,解释notebook命令,和workers协调 我的实践 wordcount-improved.py 和 reddit-averages.py 这两个文件在我的 Hadoop-MapReduce 文件夹中执行与 WordCountImproved.java、RedditAverages.java 相同的工作,但不是使用 java MapReduce,而是使用 Spark 核心 python 来执行 MapReduce 工作 correlate-logs.py 该文件与我在 HBase-MapReduce-in-Java 文件夹中编写的 CorrelateLogs.java 执行相同的
【文件预览】:
Hanhan-Spark-Python-master
----reddit_average_sql.py(1KB)
----matrix_multiply.py(1KB)
----correlate-logs.py(1KB)
----amazon_review_tfidf.py(3KB)
----slope_one.py(2KB)
----matrix_data_sparse.txt(525B)
----reddit-averages.py(939B)
----LICENSE.txt(1KB)
----relative-score-bcast.py(1KB)
----GradientBoostedTrees.py(5KB)
----relative-score.py(1002B)
----euler.py(833B)
----read_stream.py(987B)
----anomalies_detection_data_sample.txt(3KB)
----model_visualization.py(3KB)
----word2vec_histogram_best_RMSE.py(5KB)
----temp_range_sql.py(2KB)
----tfidf_cv_lowestRMSE_normalized.py(4KB)
----kernelized_svm.py(1KB)
----spark_ml_pipline.py(2KB)
----correlate-logs-better.py(2KB)
----temp_range.py(2KB)
----word2vec_best_RMSE.py(5KB)
----README.md(18KB)
----word2vec.py(2KB)
----movie_recommendations.py(3KB)
----Spark2.0()
--------spark_streaming_word_count.ipynb(3KB)
--------Readme.md(13KB)
--------spark_streaming_anomalies_detection.ipynb(9KB)
--------Saprk_anomalies_detction.ipynb(10KB)
--------simulate_streaming_input.ipynb(5KB)
--------spark_MLPipeline.ipynb(7KB)
--------logs-features-sample.zip(1.49MB)
--------spark_kmeans_streaming.ipynb(7KB)
--------how_to_define_spark.py(2KB)
--------streaming_twitter_sentiment.ipynb(5KB)
--------kmeans_train.csv(71B)
--------kmeans_test.csv(63B)
--------anomalies_detection.py(3KB)
--------anomalies_detection_spark_streaming.py(3KB)
----shortest_path.py(3KB)
----RandomForests.py(5KB)
----amazon_review_tfidf_normalized.py(3KB)
----random_forest_with_bagging.py(1KB)
----linear_svm.py(2KB)
----itemsets.py(1KB)
----load_logs_sql.py(1KB)
----entity_resolution.py(5KB)
----anomalies_detection.py(3KB)
----matrix_data.txt(445B)
----image_classification.py(3KB)
----word2vec_kmeans.py(2KB)
----Spark3+()
--------spark_window.ipynb(11KB)
--------ReadMe.md(354B)
----als.py(2KB)
----tfidf_cv_lowestRMSE.py(3KB)
----wordcount-improved.py(1KB)
----matrix_multiply_sparse.py(2KB)