机器学习套路 —— 样本集的拆分(正样本、负样本)

时间:2022-05-19 19:58:29

collect negative samples of adaboost algorithm for face detection
机器学习中的正负样本

  • 所谓正样本(positive samples)、负样本(negative samples),对于某一环境下的人脸识别应用来说,比如教室中学生的人脸识别,则教室的墙壁,窗户,身体,衣服等等便属于负样本的范畴。
  • 负样本通过采集的方式获取,也可通过生成的方式自动获取:
    • 工作 20x20 大小的人脸检测,为了获取尽可能多的负样本,拍摄一张 1000x1000 像素大小的车的图像,将其拆分为 20x20 大小的片段,⇒ 50x50
      • 也可将 1000x1000 ⇒ 拆分为 10x10 大小,100x100 副负样本图像,为了保持大小的一致,还需进一步将其拉伸到 20x20 的大小;

1. 训练集负样本继续抽样

  • 保留全部正样本,负样本随机抽取一定比例加入训练集;

2. 数据平衡

  • cascade learning 以及重采样的方法 ==> 实现数据平衡;