文件名称:spring-2015-10605:具有大数据集的机器学习,2015年Spring
文件大小:13KB
文件格式:ZIP
更新时间:2024-06-04 23:43:25
Java
该存储库包含为卡耐基梅隆大学(Carnegie Mellon University)2015年Spring课程10-605“使用大型数据集进行机器学习”编写的代码。该存储库中的三个独立子目录表示了该课程的三个不同作业。 每个任务都基于在并行化,内存受限的环境中实现和描述机器学习算法。 第一个子目录set3_hadoop_naive_bayes对应于使用Java编程的Hadoop MapReduce实现训练Naive Bayes分类器。 第二个set5_distributed_logistic_regression包含内存受限的实现,该实现使用随机梯度下降训练逻辑回归分类器。 最后一个set7_spark_matrix_factorization使用Apache Spark通过随机梯度下降以分布式方式分解稀疏矩阵。 尽管这些文件中的大多数代码代表了我的工作,但由于提供了一些实用程序功能作
【文件预览】:
spring-2015-10605-master
----set5_distributed_logistic_regression()
--------LR.java(8KB)
--------README.md(1006B)
----set3_hadoop_naive_bayes()
--------NB_train_hadoop.java(5KB)
--------README.md(723B)
--------run.java(2KB)
----set7_spark_matrix_factorization()
--------README.md(1KB)
--------dsgd_mf.py(7KB)
----README.md(1KB)