1、业务角度
一般是在一个召回的商品集合里,通过对商品排序,
追求GMV或者点击量最大化。
基于一个目标,如何让流量的利用效率最高。
很自然的,如果我们可以准确预估每个商品的GMV转化率或者
点击率,就可以最大化利用流量,从而收益最大。
2、技术服务于业务,模型本身的迭代需要配合业务目标才能发挥出
最大的价值,因此选择模型迭代的路线,必须全盘考虑业务。
3、在点击率预估领域,常用的是有监督的模型,其中样本,特征,模型
是绕不开的问题。
4、首先,如何构建样本,设计模型的目标函数是什么,即要优化什么。
原则上,我们希望样本构建越接近真实场景越好。比如点击率模型
常用用户行为日志作为样本,曝光过没有点击的日志是负样本,
有点击的是正样本,去构建样本集,变成一个二分类。
在另一个相似的领域-----learning to rank,样本构建方法分为3类:
pointwise,pairwise,listwise.
5、pointwise范畴,即每一条样本构建时不考虑与其他样本直接的关系。
真实的场景中,往往需要考虑其他样本的影响,比如去百度搜一个关键字,
会出来一系列的结果,用户的决策会受整个排序结果影响。
6、pairwise做了一点改进,它的样本都是pair对组成,比如电商搜索下,
商品a和商品b可以构建一个样本,如果a 比 b好,
样本pair{a,b}是正样本,否则是负样本。
当然,这会带来新问题,比如a>b,b>c,c>a这个时候怎么办?
7、而listwise就更接近真实,但复杂性也随之增加,工业界用的比较少
这里不做过多描述,理论上,样本构建方式listwise>pairwise>pointwise
但实际应用中,不一定是这个顺序。
如,你在pointwise的样本集下,模型的fit情况不是很好,比如auc不高,
这个时候上pairwise,意义不大,更应该从特征和模型入手,
一开始就选择pairwise或者Listwise,并不是一种好的实践方式
8、其次是模型和特征,不同模型对应不同的特征构建方式,比如广告
的点击率预估模型,通常就有两种组合方式,采用大规模离散特征+logistic
regression模型或种小规模特征+复杂模型。