(转)EDM中的测试（A/B Testing）策略和方法

数据分析中有一种方法叫对比分析，而A/B test则是对比分析的典范。试验组VS控制组，测试过好孰好孰坏一目了然，从某种程度上讲A/B test与统计学中的T检验和方差分析有着类似的思路,前面2篇介绍了A/B test 的基本概念和实现方法，本篇则推荐的是EDM过程中A/B test的应用范例。

在给一个客户推荐电子邮件服务商的时候，我们考虑到他在这方面的总预算不过几十K€，每年才发送不到10万封邮件，所以推荐了一个最经济实惠的邮件服务商。结果那位客户却是个“行家”，理直气壮的质问我们为什么不推荐Neolane！我们顿时集体失语。（注脚：Neolane是一个管理多渠道营销活动的软件，起步价在50K€上下，需要服务器等硬件支持；可以管理千万级以上的电子邮件营销活动）

首先界定一下本文的主题：

在网站分析中谈A/B测试，默认是对网页上的元素进行测试；许多介绍，评论，各种讲义，软件，讲的对象都是网页的测试；在这方面软件也很多，免费的Google Site Optimizer和付费的Test and Target。而本篇所要谈的是对电子邮件营销的测试，这是一个谈论相对较少的话题，但是考虑到电子邮件营销仍然是一种操作简单，成本低，投资回报率高的在线营销渠道，所以还是有必要对其进入深入讨论的。另一方面，实际上几乎所有的专业的电子邮件营销服务商的软件（比如Experian Cheetahmail, EmailVision, 请教：国内有哪些专业的服务商呢？）和在线营销整体活动服务商（SAS，Unica，Neolane）中都包含了测试的功能，并且这也是他们重点推介的功能之一。

测试作为一种科学的决策方法，通过统计原理的检验来代替人的直觉，用数字说话，效果明显，从而成为网站优化中的一个必须长期坚持做的工作之一。我在“样本，测试和评估”系列中引用过“让测试成为一种习惯”，不过那个系列主要思想还是“评估”，侧重点是样本的选取，是Post-test。在本篇中，谈的是真正意义上的测试，是Pre-Test，基本思想是在发送所有的邮件之前，通过测试找到一个对特定分组人群（segmentation）来说表现较好的“发件人+主题+邮件”的组合，然后把它发送给这个组的所有人群。

你需要和能够测试吗？

现在提及电子邮件营销的文档或者讲座中，一半以上肯定是先说几十亿几百亿的邮件在某年某年被发送出去了，然后一个趋势图，显示邮件的打开率(Open Rate)，点击率(Click rate)，响应率(Reaction rate=CR*OR)在不停的下降,用户接受了太多的商业邮件，所以xxxxxx。我的废话已经很多了，没有这些论据，直接所以了：

如果你一次性发送邮件超过10万封，并且能够收集基本的统计数据的话，那么请你一定考虑做测试
如果你一次性发送邮件超过10万封，但是不能够收集基本的统计数据的话，那么请你找一个能收集统计数据的解决方案，然后测试吧
如果你一次性发送邮件超过5万封但是不到10万封，如果你愿意的话，可以做一下测试，但是不要抱太大希望，除非两个方案差别很大
如果你一次性发送邮件低于5万封的话，那建议你把时间和精力放在其他优化策略上吧
如果你需要多次重复性发送一系列同一话题的邮件，那么请你一定考虑做测试

（注：以上数字是笔者的经验值，没有经过验证。考虑的出发点是在一次性发送中，至少取两个测试样本的话，每个样本不能超过20%；所以最多按照20%+20%的比例进行取样测试，然后60%按照胜出的样式发送。为了得到一个统计上显著可信的结果（和样本大小及结果的差异度有关系），并且测试成本得到回报，所以才大体给出了这个数字。不过如果多次发送，而邮件的相似度很大的话，那前几次发送可以按照50%+50%进行测试，那么总体规模可以减小）

正如前文所说，如果测试的话，那说明你发送的邮件已经达到了一个规模；而如此规模的发送，很小的可能你是在DIY，应该有一个邮件服务商吧。在大多数邮件服务商的软件中，都会有测试功能，这个功能包括随机提取样本（自动或者手工）；支持个性化邮件；自动收集基本统计数据比如送达率（delivery rate），打开率，点击率等；自动进行显著性检验；自动按照胜出模式发送剩余的邮件等等。如果其中的一些功能缺失的话，只要能够采集基本数据，其他的还是可以人工完成的。但是如果连基本的统计数据都无法采集的话，那么建议你更换邮件服务商吧！

这里顺势介绍两种简单常见的测试方式：

1. 10/10/80测试：适用于一次性大批量发送。首先抽取20%的样本进行测试，然后选择胜出的邮件发送到80%的剩余地址中。

email-testing-101080

2. 50/50测试：适用于重复发送的邮件，比如Newsletter和实时个性化促销邮件。首先对前几次邮件进行测试，找到最佳的组合，然后按照这个模式发送其他的邮件。不过这也不能一劳永逸，要及时观察各种统计数据，发现潜在问题和机会，重复测试。

email-testing-5050

你需要测试什么?

我们可以把测试的内容分为两类：

1. 基于营销活动的测试：这是短期的，针对特定的邮件发送进行的测试，用来优化一次特定的营销活动的效果。这里可以测试的东西有：

1. 邮件的主题：是“xxx三月份电子讯息”好呢，还是“iPad，不会掉入马桶的iPod”好呢？
2. 发送人：是“xxx网”好呢，还是“Newsletter-xxx网”好呢？
3. 邮件设计：call to action的按钮应该放在中间还是左下角呢？
4. 发送日期和时间：周一发送还是周五发送？早晨8点发送还是下午5：30发送？
5. 着陆页面测试：测试不同的着陆页面

2. 基于营销战略的测试：这是长期的测试，目的是和公司营销战略配合，或者测试新的营销战略。这里可以测试的东西有：

1. 协调性测试：测试邮件的内容，提供的信息（产品，服务，促销），表现的形式和对象的特征
2. 客户族群分组测试（segmentation）：测试不同的segmentation对同一封邮件是否有不同的反应以此来检验分组是否恰当和必要，然后推送不同的合适的内容
3. 个性化邮件测试：这里主要针对已知顾客，而不是购买的商业邮件地址。通过对各种渠道和工具收集到的信息的挖掘，特别是一些网站上触发事件（Trigger）的定义，我们有可能发送高度个性化的邮件，比如特定的产品和促销信息。但是这些个性化的效果怎么样，什么Trigger是有效的，对于每个Trigger应该配送什么样的信息，是否需要促销？这些，都可以通过测试来找到答案！（注意，这是一个非常微妙的问题，对于测试的方法和样本的选取有十分严格的要求，不然很容易得出错误结果。建议读者参考这篇博文：样本，测试和评估-1中的第二个分割线以后的部分。）

哪些指标来衡量结果？

1. 电子邮件相关统计参数：

1.打开率=邮件净打开次数（number of unique opens）/ 邮件送达数（Number of successful deliveries）。需要小心的是一份邮件可能被同一个人打开若干次，所以这里需要使用”unique”然后基数是邮件成功送达的数目，而不是发送的数目，以免一些错误的地址或者服务器原因被退回的邮件影响结果。不过这里的成功送达并不代表邮件没有被邮件提供商放到垃圾邮箱里。目前还无法知道这个数据。
2.点击率=邮件净点击次数（number of unique clicks）/ 邮件净打开次数（number of unique opens）。这里肯定还是要小心“unique”，不过还有一点：如果有条件的话，清除“退订链接”的点击数目，这个是负面因素，不是我们想要的点击；这个参数需要单独研究。
3.响应率=邮件净点击次数（number of unique clicks）/ 邮件送达数（Number of successful deliveries）=打开率*点击率
4.某一个特定链接的点击率：为了测试一个重要链接的点击率，需要排除其他点击的影响。比如检验call to action链接或者促销信息链接的点击情况
5.某一个特定类别的链接的点击率：这个适用于一封邮件中有很多链接的情况，可以测试某一个类别的讯息是否吸引邮件接收者。比如一封邮件中产品信息的链接和知识类信息的链接的点击情况-这个可以和邮件接受者的特征结合在一起分析，优化。（如果需要在同一封邮件中比较的话，注意位置对点击情况的影响）
6.退订链接的点击情况（在正规的电子邮件营销中，退订链接是必须的）
7.扩散性：如果邮件中含有分享链接的话，可以跟踪被分享的渠道和次数；（不知道是否可以跟踪邮件被转发的次数呢?知道的朋友欢迎指教）

2. Post-click的参数：

1. 在着陆页面的弹出率（关于弹出率的分析）：哪个邮件或者是哪个链接在同一个着陆页面的弹出率比较高？
2. 转化率：对于“转化”的定义，需要根据你的商业来确定。它可能是访问了5个页面，也可能是访问了产品介绍页面，也肯能是注册或者购买了，或者点击了广告等等。
3. 投资回报率（ROI，Return on Investement）：这个对于基于营销战略的测试尤其重要。尤其是个性化推送打折信息的时候，回报率怎么样？

如何来实行一次测试，哪些步骤？

1.定义测试的内容和指标：什么元素需要测试？哪些指标来衡量效果？

邮件的发件人和主题主要影响打开率，而邮件内容主要影响点击率；发件人+主题+邮件内容的组合影响响应率（Reaction Rate），这个参数涵盖了主题和邮件内容的匹配度对效果产成的影响。

如果让测试更完备的话（不一定更合理），还可以跟踪对象一直到转化，以最终转化率为标准来决策。这对样本大小提出了更高的要求。

2.样本的选取：随机很关键，同时注意除了测试元素之外，其他的变量都应该相同。样本的选取对测试结果的可信性有决定作用。

3.邮件发送：除了测试元素之外，对于发送过程也要控制，必须在同一时间通过同样的手段发送

4.收集数据：数据收集过程很快，通常48个小时之内就可以出结果

5.分析数据：确定胜出的邮件（不一定有）。检验显著性和置信度（这个最好由软件提供或者由专业人士来做，下一篇博客可能谈如何DIY），总结经验和Best Practices

6.推广胜出的邮件模式：按照这个模式发送其他邮件

7.持续监测邮件效果：客户对邮件的反应变化的非常快，尤其是在频繁收到同一个发信人的邮件的情况下。所以要持续跟踪，持续优化。 . 最后一点杂谈

接上次关于咖啡的讨论，测试是一种优化的手段，但是测试之前，应该首先保证基本的东西都做到位了，比如，

1.不发垃圾邮件，

2.发送服务器没有被邮件服务商和电信服务商屏蔽，

3.邮件的排版在各个邮箱提供商中不会变形，

4.是否考虑到移动设备（参见针对移动设备优化你的电子邮件营销），

5.各个链接可用，

6.有服务器镜像链接，

7.有纯文本邮件（如果邮箱不支持html邮件的话）

8.有退订链接

9.链接中正确的安装跟踪标签以收集统计数据

10.参照了电子邮件制作的best-practice

11……

最后，从战略的角度来看，最重要的还是要让你的邮件真正给顾客带来实际的价值。重要的因素包括即时侦测客户的需求，高度个性化邮件，掌控好发送邮件的频率。

Update:

专业的做Testing的软件大多数也有email testing的功能，只不过侧重post-click部分，Email服务软件侧重邮件的成功发送率，打开率，重复打开率，点击率，重复点击率，并且统计比较准确。
对于社交媒体分享的跟踪，有两种方法，一是根据点击次数，这个email服务软件提供；一个是给邮件链接加标签，然后通过网站分析工具检测。谢谢Kevin的评论，和分享的专业解决方案：http://www.lyris.com/solutions/lyris-hq/social-media-marketing/
根据我个人的经验，邮件“转发”目前是不能直接被统计到得，我们可以根据重复打开数来稍微揣摩一下，但是不可指导行为。- 当然，如果谁有知道统计的方法的，非常希望分享和交流！

原文地址：http://www.itongji.cn/article/052120922013.html

秒客网

(转)EDM中的测试（A/B Testing）策略和方法

相关文章