从零开始学AB测试：躲坑篇

AB测试的原理很简单，只用到了最简单的统计假设检验，但表面的简单通常都隐藏着陷阱，这一点没有经过实践的摸爬滚打是不容易看到的，今天我就把前人已经踩过的坑，一共15个，给大家分享一下。在分享之前，大家脑中一定要有个概念，AB测试虽然简单且强大，但是其成立是有前提的：

A组和B组的用户一定是要“随机”分配。随机这个事很有学问，绝对的随机甚至根本不可能，实际中只能做到尽量接近真随机。换句话说，随机性并不总是成立，你要仔细小心它失效的场景。
在以你测试的时间点为中心的一定时间范围内，用户的行为是不变的。

只要牢记并时刻检查这两点假设，那么很多下面的陷阱你自然就能避免了。

1. 不做AB测试

很显然，我们不能不做AB测试。不要企图用一些其他方法替代AB测试，比如：通过比较产品上线之前N天和之后N天的情况，对比分析去得出结论。这不也是AB对比吗？看起来没毛病，这种方法也不是完全没有用，但是很不稳定，所以不要用。

2. 乱作AB测试

既然AB大法这么好用，那么我们全靠它不就行了吗？以后有任何功能任何改动都先搞个AB测试吧！AB测试并不是做的越多越好，我们可以通过下面简单的公式来看一下：

从零开始学AB测试：躲坑篇

我们追求的是总的效果，除了注重数量更要注重质量。

3. 采样污染

举个例子，如果你在节假日对你的产品做AB测试，那么测试阶段的用户群（样本）和平时的用户群自然会有很大的差异（回顾开头讲的第二条前提条件），这样很难得出你想要的测试结果。AB测试无法在全体样本上进行实验，所以必须采样，采样要保证随机性且能代表总体样本的分布，做实验的时候就要特别注意避免一些可能导致采样污染的特殊因素。

4. 时间范围不够

除了要避免在一些特殊时间进行测试，测试的时间还要足够长，理由如下：

时间长有助于收集更多的数据，保证统计显著性
如果新的特征改变比较明显，老用户可能会不适应，那么你需要给老用户一定的时间去适应你的改变，然后收集的数据才更有统计意义。(参考开头提到的第二条准则）

5. 只关注平均值

如果测试结果显示新版本比旧版本平均多吸引了30%的用户，那么是否就证明万事大吉，可以开开心心上线了呢？还不行。这个时候还要对更细粒度的数据做一些分析，保证你看到的“好结果”是真的。举个极端点例子，万一是系统Bug导致新版本多统计出了更多的用户呢？我们相信，在AB实验结束并且展现了良好的结果时，你已经基本接近成功了，但是永远不要在分析更详细用户数据之前下结论。

6. 忽视技术实现

有些看不见的东西一样会影响用户，AB测试阶段除了产品特性的不同，技术细节也会改变，这些会不会影响到实验结果？如果新版本加载更多的css资源，会不会导致页面加载变慢？这些看不见的细节也会影响用户体验，给实验结果带来干扰。

7. 不去思考为什么

AB测试不会一直成功，甚至失败的次数可能更多，但是如果实验结束之后不去思考为什么，那才是彻底的失败。实际上AB测试失败的时候，才是我们从中学习并真正了解用户的时候，千万不要放弃这样的机会，要多问些为什么。

“想要提高成功率，先提高失败率。”

从零开始学AB测试：躲坑篇

8. 用错误的度量标准

举个例子，如果你优化的是网站首页的性能，那么就不要拿全站的统计结果去做度量标准。度量标准要选好，不要想当然。

9. 做一系列的测试

如果新版本有10个细节上的改动，那么是不是我们要做10个AB测试来分别测试他们的效果呢？当然不行，千万不要这么做。产品的改动效果绝对不是线性相加的，不同的特征之间要一起组合才能生效，就好比把背景变黑之后一定要把字体变白才行。

10. 实验设置有噪声

还有很多我们无法预料的因素可能会影响到实验结果，那么怎么办呢？我们不止要做AB测试，还要做AA测试，用AA测试来保证实验设置本身没有噪声干扰，这个也很重要。于是在实际中你要把1/3的用户分配给B组，1/3的用户分配给第一个A组，1/3的用户分配给第二个A组。

11. 忽略环境的改变

不管你的AB测试是成功了还是失败了，在一定时间之后你都要重新审视它，因为环境变了。昨天失败的AB测试，很可能是你的理念超前了，也许过了一年用户就可以接受了呢？一次失败不代表用永远失败，反之亦然。

12. 交叉访问污染

当线上同时存在两个版本的时候，你一定要考虑到单个用户的体验。如果一个用户在不同浏览器、不同设备*问到了不同的版本，那么可能会带来用户体验的下降，同时对收集的数据造成干扰。比如，如果AB版本之间的差异过于明显，那么老顾客可能就会很讨厌那个新版本，而在新版本上表现出消极的行为，同时在老版本上表现积极的行为，而我们无法从统计结果中对这种偏差就行纠正。所以保证单个用户体验的一致性就很重要。

13. 漏斗污染（Funnel pollution）

不确定这个翻译准确不准确，就直接按英文直译了。如果你是一个电商网站，那么你最终的目标是要用户下单付款，你的优化目标应该是针对整个下单的全流程，并且以最终下单的数量作为度量标准。假如你在首页做了某些活度，让点击产品页面的用户大幅度提升，有些统计数据看起来会很漂亮，但是对最终的结果可能没有任何帮助。这个也要注意。

14. 同时运行多个AB测试

线上同时存在多个版本的话，实在是有点复杂，一般情况下不会这么干，但仍要警惕。

15. 使用错误的经验

AB实验毕竟是一项科学实验，所以我们要用数据说话，不能想当然。不要乱用一些道听途说的经验，比如：“1000个用户样本就够了”，实际上收集多少用户的数据是要严格计算的。上一篇文章我们分享过类似的工具。再比如，不要以为在桌面端测试通过的方案，就可以放心在手机端同时上线了，实际上不同平台的差异非常大，必须单独进行AB测试。

总之，要记住开头提到的AB测试成立的两个前提，要时刻检验它们是否成立：

A组和B组的用户一定是要“随机”分配。
在以你测试的时间点为中心的一定时间范围内，用户的行为是不变的。

如果你喜欢以上内容，欢迎到我的个人主页关注我：Homepage

秒客网

从零开始学AB测试：躲坑篇

1. 不做AB测试

2. 乱作AB测试

3. 采样污染

4. 时间范围不够

5. 只关注平均值

6. 忽视技术实现

7. 不去思考为什么

8. 用错误的度量标准

9. 做一系列的测试

10. 实验设置有噪声

11. 忽略环境的改变

12. 交叉访问污染

13. 漏斗污染（Funnel pollution）

14. 同时运行多个AB测试

15. 使用错误的经验

相关文章