Bandit:一种简单而强大的在线学习算法

假设我有5枚硬币，都是正反面不均匀的。我们玩一个游戏，每次你可以选择其中一枚硬币掷出，如果掷出正面，你将得到一百块奖励。掷硬币的次数有限（比如10000次），显然，如果要拿到最多的利益，你要做的就是尽快找出“正面概率最大”的硬币，然后就拿它赚钱了。

这个问题看起来很数学化，其实它在我们的生活中经常遇见。比如我们现在有很多在线场景，遇到一个相同的问题：一个平台这么多信息，该展示什么给用户，才能有最好的收益（比如点击率）？

Google作为最大的搜索广告公司，在用户搜索时该展示什么广告；Facebook作为社交平台，当用户好友过载的时候，该怎么组织好友的说说（把你最感兴趣的放前面）；Taobao有海量的商品池子，该如何捞取用户最容易剁手的商品展示出来？

一切通过数据收集而得到的概率预估任务，都能通过Bandit系列算法来进行在线优化。这里的“在线”，指的不是互联网意义上的线上，而是只算法模型参数根据观察数据不断演变。

Bandit算法的创造其实来源于人类的经验，这个算法框架包含两个部分，一是探索未知（explore），二是利用已知（exploit）。一部分精力做探索（不考虑曾经的经验），一部分精力做采集（利用已知的最好策略）。

How Bandit

首先来看看Bandit的概率原理，我们希望知道每一个硬币“正面”的概率 Bandit:一种简单而强大的在线学习算法。事实上我们能观察到的，只是这个硬币正面的频率

正 面 次 数 全 部 尝 试 次 数

怎么利用起观察到的频率，来最好地预估真实的概率呢？下面介绍4种策略，分别是随机（Random）、简单观察（Naive）、ε-贪心法（ε-Greedy）、置信上限法（UCB）。

Random

每次随机选择一枚硬币进行投掷。如果不能胜过这个策略，就不必玩了。

Naive

先给每个硬币一定次数的尝试，比如每个硬币掷10次，根据每个硬币正面朝上的次数，选择正面频率最高的那个硬币，作为最佳策略。这也是大多人能想到的方法。

但是这个策略有几个明显问题：

10次尝试真的靠谱吗？最差的硬币也有可能在这10次内有高于最好硬币的正面次数。
假设你选到的这个硬币在投掷次数多了后发生了问题（比如掉屑），改变了其属性，导致其正面的概率大大降低，如果你还死守着它，那不是吃大亏了？（这是对变量的考虑）
就算你给一个硬币10次机会，如果硬币真的很多，比如，给每个硬币10次机会是不是也太浪费了呢？等所有硬币都尝试过，再回来“赚钱”，花儿都谢了！

ε-Greedy

有了前两个垫背，可以开始让Bandit登场了。ε-Greedy就是一种很机智的Bandit算法：它让每次机会以ε的概率去“探索”，1-ε的概率来“开发”。也即，如果一次机会落入ε中，则随机选择一个硬币来投掷，否则就选择先前探索到正面概率最大的硬币。这个策略有两个好处：

它能够应对变化，如果硬币“变质”了，它也能及时改变策略。
ε-Greedy机制让玩的过程更有趣，有时“探索”，有时“赚钱”。

在此基础上，又能引申出很多值得研究的问题，比如ε应该如何设定呢？它应不应该随着时间而变？因为随着探索次数的增多，好的选择自然浮现得比较明显了。ε大则使得模型有更大的灵活性（能更快的探索到未知，适应变化），ε小则会有更好的稳定性（有更多机会去“开发”）。

UCB

在统计学中，对于一个未知量的估计，总能找到一种量化其置信度的方法。最普遍的分布正态分布（或曰高斯分布） Bandit:一种简单而强大的在线学习算法，其中的就是估计量的期望，而则表示其不确定性（越大则表示越不可信）。比如你掷一个标准的6面色子，它的平均值是3.5，而如果你只掷一次，比如说到2，那你对平均值的估计只能是2，但是这个置信度应该很低，我们可以知道，这个色子的预估平均值是2，而以95%的置信区间在[1.4,5.2]。