特征处理之统计特征

时间:2022-06-11 06:45:52

特征处理之统计特征

历届的Kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征
1.加减平均:这个用户所买商品高于所有用户购买商品平均价格的多少(权衡一个人的消费能力),用户连续登录天数超过平均多少(表明这个用户对该产品的黏性
2.分位线:商品属于售出商品价格的多少分位线处。(比如20%,说明20%的人买东西都不会低于这个价格)。
3.次序型:排在第几位。
4.比例型:电商中,某商品在某电商平台好/中/差评的比例
### 特征处理示例:
##### 数据说明:
数据主要包含两个部分。第一部分是1000万用户在商品全集上的移动端行为数据(D),包含如下字段:
特征处理之统计特征
实例如:
141278390,282725298,1,95jnuqm,5027,2014-11-18 08
这些字段中behavior_type字段和time字段包含的信息量最大,user_geohash字段由于缺失值太多,基本没法使用。
第二个部分是商品子集(P),包含如下字段:
特征处理之统计特征
实例如:
117151719,96ulbnj,7350
训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。

数据处理示例

(1) 前一天的购物车商品很有可能第二天就被购买 => 规则
(2) 剔除掉30天里从来不买东西的人 =>数据清洗
(3) 加车N件,只买了一件的,剩余的不会买 =>规则
(4) 购物车的购买转化率 (有的人加车了,就买了。直接推该用户推荐加车的东西)=>用户维度统计特征
(5) 商品热度(比较热的东西,是大众比较喜欢的:一般为销量,连续型数据) =>商品维度特征
(6) 不同的item点击/收藏/购物车/购买的总计 (4个连续值) =>商品维度统计特征
(7) 不同的item点击/收藏/购物车/购买平均每个user的计数 (4个连续值,每个用户对其交互的特定商品发生上述行为的次数) =>用户维度统计特征
(8) 变热门的品牌/商品(对于某个item,今天有多少人点击-昨天有多少人点击,若差值变大,说明该item变热) =>商品维度统计特征(差值型)
(9) 最近第1/2/3/7天的行为数与平均行为数的比值 (有的user比较喜欢点,他就不喜欢买;有的用户点的非常少,他点了基本就会买) =>用户维度统计特征(比例型)
(10) 商品在类别中的排序(比如iphone8在手机类别中的排序,按热度:点击量、购买量、上架时间) =>商品维度统计特征(次序型)
(11) 商品的购买转化率(商品展示和购买次数的比值,有些商品展示了很多次都没人买,有些商品一展示就很多人买) =>商品维度统计特征(比例型)
开一个时间窗口,时间可能是前一周,最多一个月,或一个季度
(12) 最近的交互离现在的时间 =>时间型
(13) 总交互的天数(该用户对该APP的关联程度有多高) =>时间型
(14) 用户前一天最晚的交互行为时间(判断用户的习惯,比如发现某用户喜欢半夜购) =>时间型
(15) 用户购买商品的时间 (用户发生购买行为的平均、最早、最晚时间) =>时间型

模型特征组合

  1. 拼接型:简单的组合特征。例如挖掘用户对某种类型的喜爱,对用户和类型做拼接。正负权重,代表喜欢或不喜欢某种类型。
      - user_id&&category: 10001&&女裙 10002&&男士牛仔
      - user_id&&style: 10001&&蕾丝 10002&&全棉  
  2. 模型特征组合:
      - 用GBDT产出特征组合路径
      - 组合特征和原始特征一起放进LR训练
  1. 4月机器学习算法班-特征工程:https://blog.csdn.net/joycewyj/article/details/51647036
  2. 特征处理与选择实例分析:
    https://blog.csdn.net/han_xiaoyang/article/details/50481967
  3. 特征工程笔记:https://blog.csdn.net/joycewyj/article/details/51647036

转自:https://blog.csdn.net/fisherming/article/details/79925574