“ Never stop testing, and your advertising will never stop improving. ” 这是奥美公司创始人大卫奥格威的一句经典名言。

我们所熟悉的一些互联网公司佼佼者都崇尚快速实验,通过验证自己的想法推进产品的优化:Google每年运行超过1万次A/B测试;Booking通过大量试验实现超过同行业2-3倍的转化率;美国前总统奥巴马政府在募集选举资金的时候,通过测试对募资网站的图片以及文案进行测试优化,网站点击率提升了40.6%,而点击率的提升为奥巴马团队带去了预估6000万美元的捐赠… 从种种数据资料中,我们可以看到通过测试我们可以量化和提高运营效率、优化产品体验甚至还可以搞钱!

随着现代互联网的发展,试验的门槛不断降低,A/B测试已经被普遍运用在各行各业,就算你没有做过A/B测试,也很有可能参与过A/B测试,本篇文章就来详细介绍下什么是A/B测试以及怎么做A/B测试。

什么是A/B测试

A/B测试就是将一群用户分组进行试验,然后观察不同组用户的数据表现。全流程大致可以分为3个步骤:定义阶段、试验阶段以及分析阶段。

定义阶段 DEFINITION

我们通过定义产品问题,牵引出项目目标,再从项目目标制定不同的衡量指标,从衡量指标拆分出理想的用户行为,然后提出不同的假设方案。

在产品问题不清晰的时候,我们可以回本溯源,根据北极星指标审视产品问题。北极星指标(north star Metric)又称为“OMTM”One metric that matters,即唯一重要指标。北极星指标为团队抓住了发展的重点,把大家拉到一个方向上努力,所有拆分的目标都应该服务于北极星指标。拆分目标的时候我们可以遵循公式化思维、MECE以及SMART原则:

举个例子说明以上三种原则在拆分目标时是如何思考和运用的:

公式化思维

假设项目的北极星指标是「总用户活跃数」,那我们可以先用公式把「总用户活跃数」拆分为「新增活跃用户数」+「已有活跃用户数」。

MECE原则

拆分的时候可以先横向拆解再逐层纵向拆解:把「新增活跃用户数」拆分为「下载用户数」*「新用户启动率」以此类推。

SMART原则

将项目目标逐层梳理直到分解成部门甚至个人具体的、可衡量的、相关的、可实现的指标,并给这些指标定一个衡量期限。

以QQ浏览器信息流项目为例:产品目标是提升信息流效率,通过公式我们可以把信息流效率拆分为点击PV和曝光UV,然后据此做出方案假设:

根据假设方案中优化的元素个数,在A/B测试中可以分为单一变量测试和多变量测试。

以QQ浏览器信息流项目为例:我们提出A、B两种假设方案,由于设计界面中的每个元素相互影响,最终的假设方案中均包含了组合型的变量。

在一般的项目中,例如banner、文案优化建议使用单一变量测试,快速有效地得出试验结论;在大改版项目中,由于想要改版的场景涉及到不同元素的组合设计,建议先使用多变量测试,能更有效率地为改版指出大方向。

需要特别注意的是:多变量试验组合中的元素不能单独拆分进行评估,因为他们是相互影响加成的。

试验阶段 TEST

我们做试验得到的结论可以作用于现在也可以作用于未来:用户喜欢哪个方案?不同方案对数据指标有多大影响?如何根据试验数据改进新版本等等。为了保证得到的结论科学可信,试验过程中也有许多需要注意的地方:

首先要科学分桶,分桶就好比把一个水池里的用户随机捞一桶出来,“捞”的时候要注意三点:

  1. 随机 - 在样本中随机选择所需的流量
  2. 均衡 - 样本属性要均衡,包括试验流量、男女比例、地区、手机系统等等
  3. 充足 - 保证最小样本量

关于样本量多少的建议:亿级日活的app建议最小抽取50万试验用户,小流量的项目或者产品可以用总用户池子的2%作为最小试验用户为参考。通过空跑期观察试验组和观察组的重合度再次确认有效性,然后就可以投入不同试验方案收集各项数据了。

试验期多久比较合适呢?在试验过程中我们要注意新奇效应以及首因效应对数据的干扰,新奇效应是指面对新的事物引起的关注带来理想化的结果;首因效应是指第一印象对产品先入为主的影响。

一般简单的试验,例如banner、文案测试要包含一个人的自然工作周期,也就是7天。会影响用户使用习惯的复杂试验至少跑14-30天。试验期我们要耐心收集数据,不预设结论不急于下结论,同时监测关键指标即使终止或调整试验。

QQ浏览器信息流的试验项目除去空跑期,试验一共跑了30天,可以从报表上初步看出方案A是正向的,方案B是负向的。那们接下来我们就开始可以对数据进行分析。

分析阶段 ANALYSIS

分析之前我们首先要验证试验数据,验证通常有三种方法:AA测试、放量测试以及反转测试。AA测试是指给不同试验用户组看统一方案;放量测试是指增加样本量观察数据表现;反转测试是指将新方案和原先上方案对调做实验。待数据验证无误后,再对核心指标和细分指标进行归因。

在QQ浏览器信息流的项目中,我们采用A/A测试,新建3个实验桶跑方案A,最后验证A方案的结论数据在三个桶里基本一致,正向的结论是可信的;对方案B我们进行了细分指标对比,检查不同业务指标,通过深挖细分可以分析出图文效率是符合预期有正向提升的,但是视频类内容的效率下跌导致整体效率下降,那么接下来我们就会针对视频类的内容做新一轮假设以及试验,直到得出正向的验证结果,然后逐步灰度上线。

像科学家一样做设计

最后想和大家说:试验的目的并不是为了证明方案更优而做,在快速试错的工作模式下,设计师应该在设计专业的基础上,大胆创新得提出设想,然后选择更优的试验方式进行结果验证,像科学家一样做设计。哪怕试验数据最终是负向也是有价值的,负向的数据有机会沉淀出具有参考意义的结论,作为经验分享让以后的工作少走弯路。希望这篇文章能帮助大家科学试验,快速试错,提高设计生产力以及量化设计价值。