文件名称:mmd-project:挖掘百万首歌曲数据集
文件大小:313KB
文件格式:ZIP
更新时间:2024-05-19 02:02:57
recommendation-algorithms data-mining-algorithms clustering-algorithm million-song-dataset JupyterNotebook
这是“挖掘海量数据”项目的存储库。 作者:陈远泽,阿历克斯时间:25/10/2016 数据 子,10000首歌曲(压缩后的1.8G)。 项目1:重复检测 使用位置敏感散列和余弦距离。 项目2:歌曲推荐(第1部分) 使用潜在因子模型。 使用替代优化来找到用户歌曲计数矩阵的潜在因子。 项目3:歌曲推荐(第2部分) 使用Gradient Dencent,SGD和mini-batch SGD解决潜在因子问题。 项目4:歌曲排名 计算歌曲相似度,并建立歌曲相似度网络。 使用特定于主题的PageRank对歌曲进行排名。 项目5:歌曲聚类 在project4中使用网络构建加权邻接矩阵。 对它执行频谱聚类,支持归一化和非归一化图拉普拉斯算子。
【文件预览】:
mmd-project-master
----project5()
--------.ipynb_checkpoints()
--------task5.ipynb(103KB)
----project4()
--------.ipynb_checkpoints()
--------mmdstask4.ipynb(7KB)
----project3()
--------.ipynb_checkpoints()
--------task3.ipynb(51KB)
----project1()
--------.ipynb_checkpoints()
--------mmds.ipynb(20KB)
--------config(349B)
--------README~(933B)
--------PythonSrc()
--------Duplication.ipynb(11KB)
--------config~(382B)
--------README(1KB)
----README.md(993B)
----project2()
--------task2.ipynb(9KB)