在现实的产品设计场景中,经常会遇到多个方案选择的问题:
App或网页端某个页面的颜色,是用蓝色还是黄色?
活动的文字方案,应该用A方案还是B方案?
....
传统的选择策略,通常是集体表决或由Leader直接拍板。
从概率上,很难保证每次的选择都是有效的,而A/B测试显然是一种更加科学的方法。
什么是A/B测试?
A/B测试,是指在产品迭代发布之前,制定两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让特征相同(相似)的访客群组(目标人群)随机的访问这些版本,并收集每个群组用户的数据,最后通过分析数据,评估出最好版本去承载全部流量。
A/B测试有什么特性?
A/B测试具有三大特性:先验性、并行性和科学性。
先验性
互联网以往的方式是先发布版本,再通过数据验证效果,分析版本的好坏。
而A/B 测试是通过采用代表性样本、用户流量划分以及小流量测试等方式,来获得具有代表性的试验结论。
简单来说,就是先通过低代价,小流量的试验,再推广到全流量的用户。
并行性
将两个或两个以上的版本同时试验,确保每个版本所处环境的一致性,即其他条件都相同,同时发布同时生效,这样便于更加科学客观地进行对比。
同时,可以节省验证的时间,无需在验证完一个版本之后再验证另一个。
科学性
即用户流量分配的科学性。
将相似特征的用户均匀的分配到试验组中,确保每个组别的用户特征的相似性,从而避免出现数据偏差,使得试验的结果更有代表性。
A/B 测试的使用误区
误区一:轮流展现不同版本
先发布A版本一段时间后,再发布B版本,通过对比两个版本的数据情况来评定版本的好坏。
这种做法并不能保证每个版本所处的环境相同,受众群体可能会有明显区别。以至于难以判断最终效果是否有差异,或导致效果不同的原因。
正确做法:不同版本并行(同时)上线试验,尽可能降低所有版本的测试环境差别。
误区二:选择不同应用市场投放/随机选取用户测试
将不同版本打包,分别投放到不同的应用市场,最终根据数据反馈最优的版本,将该版本全量上线。
或随机选取一部分用户(甚至是公司内部人员)进行前期试用,根据数据反馈决定迭代版本。
这种做法违背A/B测试的科学流量分配的原则。
正确做法:科学的进行流量分配,保证每个试验版本的用户特征类似。
误区三:让用户自主选择版本
同时发布多个版本,在产品界面提供版本入口,由用户自主选择使用哪一版本,再根据数据进行分析,从而评估出最好版本。
这种做法无法预估每个版本的用户数、用户使用时长以及用户特征,最终导致了试验结果的不准确。
确正做法:让用户展现对不同版本的真实使用体验,应实时关注各版本的数据表现,并根据数据反馈及时调整试验流量。
误区四:对试验结果的认知和分析过浅
这一误区又包括了两个不同的内容:
认为只有当试验版本结果优于原始版本时,试验才算成功。
事实上,A/B 测试是用于选择最佳版本的工具。
试验可能出现的结果分为三种:试验版本有提升(试验版本最佳)、无明显差异(试验版本和原始版本均可)、试验版本的表现比原始版本糟糕(原始版本最佳),但这三种结果均可说明试验的成功。
单从试验的整体数据结果,就推论所有场景的表现效果。
例如:当A/B测试的数据表明试验版本差于原始版本时,就认定所有的地区或渠道的效果都是负面的。但如果细分每个版本中不同浏览器的数据,可能会发现:由于某一浏览器的明显劣势,导致整体试验数据不佳。
因此,不要只专注于试验数据的整体表现,而忽略了细分场景下可能导致的结果偏差。
正确做法:在分析试验整体数据的同时,需要从多个维度细分考量试验数据结果
A/B 测试如何应用?
A/B测试可以用以下这些地方:
产品UI
消除设计中不同意见的纷争,根据实际效果确定最佳方案。
文案内容
即用户阅读到的文字内容,它贯穿一个产品的所有部分,比如:活动入口、图片配文、按钮文字等等。
可以尝试变换文案内容,测试不同方案的数据效果。
页面布局
在发布新功能或活动的时候,页面的结构或者功能的位置如出现了问题,导致用户不能快速查找到关注的内容。
可以尝试变换页面布局,测试不同页面布局的数据效果。
例如:广告着陆页等。
产品功能
产品在增加新功能时,难以确定是否能达到用户的预期。如果盲目上线,可能会造成一些损失。
需要进行A/B 测试,以验证功能的使用情况和效果,再决定是否全量发布。
例如:灰度发布等。
推荐算法
包括:
基于内容的推荐算法(根据用户的历史记录推荐相似内容);
基于协同过滤的推荐算法(根据有相似兴趣用户的行为推荐相关内容);
基于关联规则的推荐算法(根据内容本身的相关性给用户推荐);
通过不同推荐算法,以获取数据结果,最终选择算法。
写在最后
A/B测试,并不完全适用于所有的产品,它适用于用户量比较大的产品类型。
因为A/B测试的结果需要大量数据支撑,日流量越大的网站得出结果越准确。
通常来说,建议在进行A/B测试时,保证每个版本的日流量能够在1000个UV(自然访问人数)以上,否则试验周期将会很长,或很难获得准确的数据。