AB测试名称
AB测试也叫双盲测试、对比测试、对照测试、分桶测试,分拆测试、受控测试、假设检验等,英文:AB Test,A/B Test, AB Testing, Bucket Testing, Split Test等。
AB测试历史
AB测试的思想源于人类分析问题和决策判断的基本方法 – 比较。俗话说:不怕不识货就怕货比货,通过比较可以很容易判断事物的优劣。单独评判某一个事物,需要该领域较全面的知识和较强的分析能力。如果把事物跟与它同类的另一个事物放在一起对比,即使没有该领域全面的知识和很强的分析能力,也可以在两个事物的对照中,看出优劣。因此,比较是人类分析和解决问题的一个基本和常用的方法。
比较的方法应该随着人类的出现就已经出现,甚至更早。比较方法的应用也非常广泛,无所不在。如果设计出一些指标,根据这些指标量化衡量两种事物的差别,比较的过程就会变得更加简单,比较的结果也更加有效。
有一种场景是比较两个群体的差异,而这两个群体的数量如此庞大,以至于无法获得两个群体的全部信息。人们希望分别抽取两个群体中的一部分个体作为各自群体的代表,进行比较,这就是AB测试的应用场景。被抽取出来的“代表”叫做样本,有了两组样本,加上设计出来的指标,就可以算出两组样本的差别。但是,由于样本不是全部群体,他们是否能够很好的“代表”整个群体呢?这里面就有随机和不确定的问题,看起来似乎样本数越高就约可靠,那么到底需要抽出多少样本数量,才能可靠的代表整个群体呢?
随着近代数学尤其统计学的发展,人们发现AB测试的应用场景越来越能够通过数学(统计学)手段进行量化分析。在19世纪初,有数学家发明了用于AB测试的算法,回答了基于样本的比较结果是否可靠,以及需要抽取多少样本数的问题。
AB测试算法
Z检验(Z-test)和T检验(T-test)是AB测试领域常用的两种算法。Z检验主要用于严格条件下比较两组样本均值差异;T检验主要用于宽松条件下比较两组样本均值差异。Z检验一般用于每组50个样本以上的情况,而T检验可以用于较少样本情况。随着样本数量的增大,Z检验和T检验的计算结果接近相同。
AB测试在各行业中的应用
AB测试在很多行业中都得到了应用,比如前面提到的医药领域,通过AB测试(双盲测试)评估药物疗效,西药在上市销售之前必须经过双盲测试,而且双盲测试有着非常规范和严格的实施流程。
AB测试在线上系统中的应用
在互联网应用中使用AB测试,始于2000年互联网泡沫破灭,google在2000将AB测试引入到线上业务系统中,经过不断的完善和发展,AB测试已经成为google业务系统重要的组成部分,google业务的任何变化都要先通过AB测试的验证才能正式发布。
AB测试的价值和意义
从管理的角度,AB测试可以避免线上系统可能遇到的两种极端情况:不修改和乱修改。由于没有准确的评估手段,对迭代修改缺乏评估手段,修改后造成业务剧烈震荡,最后索性不再修改或很少修改;由于没有准确的评估手段,业务起伏的原因无法溯源,加上管理不严,就会造成乱修改。