HI,下午好,欢迎来到微信公众号转让!
24小时服务热线: 4000-163-301

新闻动态

NEWS CENTER

从数据产品经理视角,聊聊科学的AB Test

2020-02-09

AB测试的前身是随机对照试验-双盲测试,是“医疗/生物实验将研究对象随机分组,对不同组实施不同的干预,对照起效果”。

双盲测试中病人被随机分成两组,在不知情的情况下分别给予安慰剂和测试用药,经过一段时间的实验后再来比较这两组病人的表现是否具有显著的差异,从而决定测试用药是否真的有效。

2000年谷歌工程师进行了第一次AB Test,试图确定在搜索引擎结果页面上显示的最佳结果数量。后来AB测试不断发展,但基础和基本原则通常保持不变,2011年,谷歌首次测试后11年,谷歌进行了7,000多次不同的AB测试。

12年奥巴马竞选网站的样式,通过AB Test 找到了更能吸引募捐,帮助奥巴马赢得了更高的募捐金额。

AB Test将不同的用户分成不同的组,同时测试不同的方案,通过用户反馈的真实数据来找出哪一个方案更好的过程。解决的是“多种方案需要拍脑袋确认哪一种更好的问题”。

二、特性

  • 先验性:A/B Test 是一种“先验体系”,属于预测型结论(与其相对的是后验型的经验归纳)。同样是一个方案是否好坏:A/B Test 通过小流量测试获得具有代表性的实验结论,来验证方案好坏后再决定是否推广到全量;后验型则是通过发布版本后的版本数据对比总结得到。
  • 并行性:是指支持两个或以上的实验同时在线,并需要保证其每个实验所处环境一致。并行性极大的降低了多实验的时间成本。
  • 科学性:AB Test是用科学的方式来验证方案,科学性体现在流量分配的科学性、统计的科学性。记得在开篇提到的“AB测试的前身是随机对照实验,医疗/生物实验将研究对象随机分组,对不同组实施不同的干预,对照起效果”,这要求AB Test将相似特征的用户均匀的分派到实验组别中,确保每个组别的用户特征相同。

三、统计学原理

3.1 抽样

总体:“是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等”。对于一个app、web网站,他的所有用户即为总体。

样本:与总相对应,是从总体中按一定比例抽取且能代表总体的部分个体集合。例如:分别抽样5%的app用户,形成实验组、对照组。

从总体到样本的过程,即为抽样。所以ABTest,是通过抽样 获取 实验组、对照组,对比统计量均值,以衡量实验效果。

抽样面临问题“如何从一个总体中按一定比例抽取一组随机样本?”,也就是样本统计值是否可以代表总体参数?

3.2 参数估计

为了估计总体参数,会计算样本的统计量,例如:某个优化指标的平均值。而样本的统计结果为真实的总体统计结果的点估计,但由于点估计树值与总体参数值在某种程度上存在差异。可以构造区间估计以便获取关于点估计值与总体参数的差异大小的信息。区间估计是在点估计的基础上,给出总体参数的一个概率范围(点估计值 +/- 边际误差)。

可以利用总体标准差 或 样本标准差 计算 边际误差。

(1)已知总体标准差

假设:总体标准差=20,历史数据显示总体符合正态分布;抽取100个个体形成样本,样本均值为82。

样本标准差=总体标准差/ 开根号(样本个数)=20/  开根号(100)=2

故样本符合均值为82、标准差为2 的正态分布

=> 查标准正态分布表得到,任何正态分布随机变量都有95%的值在均值附近+/-1.96个标准差以内。

=> 当样本均值是正态分布时,一定有95%的样本均值落在总体均值 +/- 3.96(1.96*2=3.96) => 总体均值=样本均值+/- 3.96 = 82 +/-3.96

=> 有95%的把握相信区间(78.08,85.92)包括总体均值。

**95%为置信水平,(78.08,85.92)为置信区间,边际误差为  Z分布(总体标准差/开根号(样本个数))。

(2)已知样本标准差,未知总体标准差

总体均值 = 样本均值 +/- t分布(样本标准差/开根号(样本个数))

基于以上论述,可以得到 在某种置信水平下,置信区间(78.08,85.92)包括总体均值,论证了 “样本统计值和总体参数相似程度”

接下来,文中将介绍 如何知道一个方案是好还是坏呢?——可以通过假设检验来确认是否应该拒绝关于总计参数值。

3.3 假设检验

尝试性的假设为原假设H0,与原假设对立的是备择假设H1. 在AB测试中,原假设H0: 实验组和参照组不存在差异,备择假设是存在差异。

在假设检验的过程中会出现以下情况(横向为真实情况,总想为结论):

我们做实验时,期望尽可能的控制 第一/二类错误。

第一类错误:原假设为真时拒绝了原假设 首先我们容易犯的就是第一类错误,就是原假设为真时拒绝了原假设,说白了就是过来就是 2 个版本无差异时候,我们错误 的认为他们有差异。

第一类错误出现的概率称之为检验的显著性水平α,一般取0.05或0.01。通过指定α 从而控制出错概率。

犯第一类的假设检验称之为 显著性检验,通过P值来判断:P值为z值的概率值(查表),是样本所提供的证据对原假设支持成都的度量,p值越小说明反对原假设的证据越多。当P值<=显著性水平α, 则拒绝H0。

请注意此处的描述“不能拒绝H0 或 拒绝H0”,而不能描述为H1为真(如果控制 第一类 不控制  第二类,仅能如此描述)。

第二类错误:原假设为假时接受了原假设,也就是 “2 个版本有差异时候,我们认为他们没有差异 ”,这个概率记为β ,不犯第二类错误的概率为的1- β。1- β:当H0为假时,作出拒绝H0的正确结论的概率称之为“检验的功效”,通常最低的统计功效值为80%。

综上,通常情况下 AB实验中, 95%+的置信水平,<5%显著性水平 , > 80%统计功效,可以被认为实验是有效的,结果有代表性是可信的。