Hadoop-KMeans:HadoopMapReduce范式中的KMeans集群

时间:2024-06-01 13:15:04
【文件属性】:

文件名称:Hadoop-KMeans:HadoopMapReduce范式中的KMeans集群

文件大小:37KB

文件格式:ZIP

更新时间:2024-06-01 13:15:04

Java

指示: 步骤1:启动python脚本以对书进行索引,将创建一个文件GutenbergBook.csv-python create_doc_index.py book,其中book是包含所有包含txt文件的目录'etextXY'的目录。 请注意,我已经手动处理了这些目录以删除所有非txt文件。 该目录大约为450M,因此我尚未将其附加到作业中。 您可以跳过此步骤,因为我是在家中生成文件GutenbergBook.csv并将其放入此目录的。 步骤2:使用python脚本规范化每个文档的tfidf,将创建一个文件GutenbergBookNorm.csv-python euclidian_normalizer.py 第三步:将标准化文件GutenbergBook.csv复制到hdfs-hadoop fs -mkdir inputKmeans-hadoop fs -copyFromLocal


【文件预览】:
Hadoop-KMeans-master
----java_src()
--------ReducerRandom.java(1KB)
--------KMeans.java(6KB)
--------MapperClosestCenter.java(3KB)
--------ReducerClusterVisualization.java(789B)
--------MapperRandom.java(902B)
--------ReducerCentroid.java(2KB)
----create_doc_index.py(5KB)
----KMeansMain.jar(10KB)
----KMeans.jar(10KB)
----euclidian_normalizer.py(2KB)
----README.md(3KB)
----result_clusters()
--------part-r-00000_k=20(7KB)
--------part-r-00000_k=10(7KB)
--------part-r-00000_k=50(7KB)

网友评论