什么是AB测试？AB测试的详细流程和方法？

“ Never stop testing, and your advertising will never stop improving. ” 这是奥美公司创始人大卫奥格威的一句经典名言。

我们所熟悉的一些互联网公司佼佼者都崇尚快速实验，通过验证自己的想法推进产品的优化：Google每年运行超过1万次A/B测试；Booking通过大量试验实现超过同行业2-3倍的转化率；美国前总统奥巴马政府在募集选举资金的时候，通过测试对募资网站的图片以及文案进行测试优化，网站点击率提升了40.6%，而点击率的提升为奥巴马团队带去了预估6000万美元的捐赠… 从种种数据资料中，我们可以看到通过测试我们可以量化和提高运营效率、优化产品体验甚至还可以搞钱！

随着现代互联网的发展，试验的门槛不断降低，A/B测试已经被普遍运用在各行各业，就算你没有做过A/B测试，也很有可能参与过A/B测试，本篇文章就来详细介绍下什么是A/B测试以及怎么做A/B测试。

什么是A/B测试

A/B测试就是将一群用户分组进行试验，然后观察不同组用户的数据表现。全流程大致可以分为3个步骤：定义阶段、试验阶段以及分析阶段。

定义阶段 DEFINITION

我们通过定义产品问题，牵引出项目目标，再从项目目标制定不同的衡量指标，从衡量指标拆分出理想的用户行为，然后提出不同的假设方案。

在产品问题不清晰的时候，我们可以回本溯源，根据北极星指标审视产品问题。北极星指标（north star Metric）又称为“OMTM”One metric that matters，即唯一重要指标。北极星指标为团队抓住了发展的重点，把大家拉到一个方向上努力，所有拆分的目标都应该服务于北极星指标。拆分目标的时候我们可以遵循公式化思维、MECE以及SMART原则：

举个例子说明以上三种原则在拆分目标时是如何思考和运用的：

公式化思维

假设项目的北极星指标是「总用户活跃数」，那我们可以先用公式把「总用户活跃数」拆分为「新增活跃用户数」+「已有活跃用户数」。

MECE原则

拆分的时候可以先横向拆解再逐层纵向拆解：把「新增活跃用户数」拆分为「下载用户数」*「新用户启动率」以此类推。

SMART原则

将项目目标逐层梳理直到分解成部门甚至个人具体的、可衡量的、相关的、可实现的指标，并给这些指标定一个衡量期限。

以QQ浏览器信息流项目为例：产品目标是提升信息流效率，通过公式我们可以把信息流效率拆分为点击PV和曝光UV，然后据此做出方案假设：

根据假设方案中优化的元素个数，在A/B测试中可以分为单一变量测试和多变量测试。

以QQ浏览器信息流项目为例：我们提出A、B两种假设方案，由于设计界面中的每个元素相互影响，最终的假设方案中均包含了组合型的变量。

在一般的项目中，例如banner、文案优化建议使用单一变量测试，快速有效地得出试验结论；在大改版项目中，由于想要改版的场景涉及到不同元素的组合设计，建议先使用多变量测试，能更有效率地为改版指出大方向。

需要特别注意的是：多变量试验组合中的元素不能单独拆分进行评估，因为他们是相互影响加成的。

试验阶段 TEST

我们做试验得到的结论可以作用于现在也可以作用于未来：用户喜欢哪个方案？不同方案对数据指标有多大影响？如何根据试验数据改进新版本等等。为了保证得到的结论科学可信，试验过程中也有许多需要注意的地方：

首先要科学分桶，分桶就好比把一个水池里的用户随机捞一桶出来，“捞”的时候要注意三点：

随机 - 在样本中随机选择所需的流量
均衡 - 样本属性要均衡，包括试验流量、男女比例、地区、手机系统等等
充足 - 保证最小样本量

关于样本量多少的建议：亿级日活的app建议最小抽取50万试验用户，小流量的项目或者产品可以用总用户池子的2%作为最小试验用户为参考。通过空跑期观察试验组和观察组的重合度再次确认有效性，然后就可以投入不同试验方案收集各项数据了。

试验期多久比较合适呢？在试验过程中我们要注意新奇效应以及首因效应对数据的干扰，新奇效应是指面对新的事物引起的关注带来理想化的结果；首因效应是指第一印象对产品先入为主的影响。

一般简单的试验，例如banner、文案测试要包含一个人的自然工作周期，也就是7天。会影响用户使用习惯的复杂试验至少跑14-30天。试验期我们要耐心收集数据，不预设结论不急于下结论，同时监测关键指标即使终止或调整试验。

QQ浏览器信息流的试验项目除去空跑期，试验一共跑了30天，可以从报表上初步看出方案A是正向的，方案B是负向的。那们接下来我们就开始可以对数据进行分析。

分析阶段 ANALYSIS

分析之前我们首先要验证试验数据，验证通常有三种方法：AA测试、放量测试以及反转测试。AA测试是指给不同试验用户组看统一方案；放量测试是指增加样本量观察数据表现；反转测试是指将新方案和原先上方案对调做实验。待数据验证无误后，再对核心指标和细分指标进行归因。

在QQ浏览器信息流的项目中，我们采用A/A测试，新建3个实验桶跑方案A，最后验证A方案的结论数据在三个桶里基本一致，正向的结论是可信的；对方案B我们进行了细分指标对比，检查不同业务指标，通过深挖细分可以分析出图文效率是符合预期有正向提升的，但是视频类内容的效率下跌导致整体效率下降，那么接下来我们就会针对视频类的内容做新一轮假设以及试验，直到得出正向的验证结果，然后逐步灰度上线。

像科学家一样做设计

最后想和大家说：试验的目的并不是为了证明方案更优而做，在快速试错的工作模式下，设计师应该在设计专业的基础上，大胆创新得提出设想，然后选择更优的试验方式进行结果验证，像科学家一样做设计。哪怕试验数据最终是负向也是有价值的，负向的数据有机会沉淀出具有参考意义的结论，作为经验分享让以后的工作少走弯路。希望这篇文章能帮助大家科学试验，快速试错，提高设计生产力以及量化设计价值。