机器学习基础(二十七)—— 数据集的使用

时间:2022-12-13 20:01:36

1. ORL 人脸库

  • (1)每幅人脸:112*92 = 10304 个像素
  • (2)40*10,40人,每人10张

应用场景:

  • (1)SVM 多类别人脸识别(先使用 PCA 进行降维)

2. MovieLens 100k:ml-100k

模型推荐中的 MovieLens 数据集和分类问题关系不大。

电影推荐方面的常用数据集:MovieLens,下载地址,http://files.grouplens.org/datasets/movielens/ml-100k.zip

关于 MovieLens 更多的数据请见:http://grouplens.org/datasets/movielens/

它能应用于推荐系统和其他可能的机器学习任务,适合作为示例数据集。

MovieLens 100k 数据集主要包含:

  • u.data:多个用户对多部电影的 10 万次(100k)评级数据
  • u.user:用户属性信息
  • u.item:电影元数据

3. Kaggle/StumbleUpon evergreen 分类数据集

该数据集

4. kddcup.data

KDD Cup 1999 Data