【点击模型学习笔记】Modeling contextual factors of click rates_MS_AAAI2007

概要

并没有觉得这是篇高质量的文章，非常奇怪为什么可以发表在AAAI上面。

文章的创新点比較单薄：在传统点击率预測模型（LR）的基础上增加了两类新的特征，一个是位置特征。一个是广告上下文特征——即和它并排展示的其它广告的特征

详细内容

1. 建模

文章中，作者用了两种模型：

（1）逻辑回归模型

作者用0-1特征，将位置信息作为一个种特征增加到模型其中；输出结果也是0-1二分类。表示用户是否点击了这个广告。

值得注意的是：作者觉得，训练出来的模型參数，某个特征的系数值比較大，则这个特征也比較重要——在后人的研究中，这是对逻辑回归模型典型误解，其中一种解释就是逻辑回归模型中的特征并不一定是真正相互独立的（尽管LR强制他们独立）

（2）另外一种模型

将用户“看到”这个广告作为一个单独的变量进行建模，p(click|ad, position) = p(click|ad, seen) * p(seen|position)——貌似不是他首次提出这个

2. 实验

作者用most frequent query来构建训练集。对于逻辑回归模型，作者尝试了两种方法：（1）针对每一个query来建模；（2）对于全部query。建立一个global模型

实验证明，（1）的效果好于（2）。

作者又构建了‘另外一种模型’，发现另外一种模型的效果比逻辑回归差非常多。

再之后，作者增加了广告上下文特征，即’和它并排展示的其它广告的特征‘。只是由于最初的时候，当前广告以及其它广告的选取、排序还不清楚，这个特征怎样提取、增加？作者觉得，这个特征是前面广告特征的系数的函数，即以这些系数为输入。在此基础上再乘以一个系数。只是在训练之前。这些系数也不清楚。

作者用了相似EM的方法来训练，即固定一组系数，训练还有一组。

总结：

非常奇怪这个文章能发到AAAI上面。

秒客网