big_data:有关Hadoop,MapReduce,Spark,Docker的教程的集合

时间:2024-02-25 01:19:15
【文件属性】:

文件名称:big_data:有关Hadoop,MapReduce,Spark,Docker的教程的集合

文件大小:2.75MB

文件格式:ZIP

更新时间:2024-02-25 01:19:15

docker big-data spark hadoop bigdata

初学者的大数据 有关Hadoop,Spark等的一些教程和演示,主要是Jupyter笔记本的形式。 使用MapReduce Streaming和bash创建映射器和化的MapReduce简介 一个非常基本的MapReduce单词计数示例 一个简单的MapReduce作业,带有mrjob Hadoop溢出解释 演示,用于对Hadoop集群进行基准测试 面向初学者的Docker:容器世界入门 Pyspark基本演示 使用pyspark生成ngram的基本示例 编码Spark数据框列 探索Unicode类别( ) 用numpy算出多项式回归的示例 使用Faker Python库生成假数据


【文件预览】:
big_data-master
----HDFS_Architecture.svg(11KB)
----docker_for_beginners.md(21KB)
----mapreduce.png(29KB)
----generate_data_with_Faker.ipynb(27KB)
----shuffle_sort.svg(38KB)
----NgramsAHPC.ipynb(11KB)
----TestDFSio.ipynb(17KB)
----mapreduce.svg(22KB)
----mrjob_wordcount.ipynb(15KB)
----Unicode.ipynb(4.49MB)
----data-1600cols.csv(3.06MB)
----PySpark_SQL_Cheat_Sheet_Python.pdf(678KB)
----LICENSE(1KB)
----environment.yml(150B)
----README.md(1KB)
----ngrams_with_pyspark.ipynb(5KB)
----polynomial_regression.ipynb(56KB)
----Encoding+dataframe+columns.ipynb(28KB)
----pi.py(1KB)
----HDFS_Architecture.png(22KB)
----Hadoop_spilling.ipynb(10KB)
----pi.slrm(417B)
----mapreduce_with_bash.ipynb(61KB)
----demoSparkSQLPython.ipynb(20KB)
----simplest_mapreduce_bash_wordcount.ipynb(2KB)
----shuffle_sort.png(20KB)

网友评论