AI算法(MAB)推动业务快速增长

将流量逐步转移到胜出版本,而不用等到实验结束。更快、更高效获得优化收益,加速业务增长。

什么是多臂老虎机(MAB, Multi-Armed Bandit)问题?

在营销方面,多臂老虎机解决方案是更智能,也是更复杂的A/B 测试。它使用机器学习算法将流量动态分配给效果良好的变体,同时将较少流量分配给效果不佳的变体。

“多臂老虎机”一词来自一个假想实验:一个人必须在多个动作(即“单臂老虎机”)之间进行选择,每个动作都有未知的收益。目标是通过一系列选择获得最佳或最大的收益结果。在实验开始时,当损失和收益未知时,必须确定要拉哪台机器,以什么顺序拉以及拉多少次。这就是所谓的“多臂老虎问题”。

多臂老虎机示例

多臂老虎机问题的一个真实例子是,当新闻网站必须决定向访问者显示哪些文章。由于没有关于访问者的信息,所有点击结果都是未知的。首要问题是,哪些文章的点击量最多?它们应该以什么顺序出现?该网站的目标是最大限度地提高参与度,他们有很多内容可供选择,但缺乏有助于确定特定策略的数据。

新闻网站在选择向访问者展示哪些广告方面也存在类似的问题。在这种情况下,他们希望最大化广告收入,但可能缺乏足够的访问者信息来决定特定的广告策略。与新闻文章的问题类似,他们通常有大量广告可供选择,但不知道哪些广告将为他们的新闻网站带来最大收入?

网站需要做出一系列决定,每个决定都有未知的结果和收益。

多臂老虎机解决方案

计算机科学家已经开发了许多不同的解决方案来解决多臂老虎机问题。以下是一些最常用的多臂老虎机解决方案的列表:

厄普西隆贪婪(Epsilon-greedy)

这是一种在探测与开采之间保持平衡的算法。(在“贪婪”实验中,除非采取随机操作,否则总是拉动已知收益最高的杠杆)。随机选择的手臂在ε的时间内被拉动。另外 1-ε 的时间,拉动已知收益最高的手臂。

汤普森采样(贝叶斯)

使用这种随机概率匹配策略,给定杠杆的拉动次数应与其成为最佳杠杆的实际概率相匹配。

置信上限

该策略基于“面对不确定性的乐观”原则,并假设基于可观察的数据,每个臂的未知平均收益将尽可能高。

多臂老虎机(MAB)和A / B测试

在决定是否使用多臂老虎机而不是 A/B 测试时,您必须权衡开采(exploitation )与探测(exploration)的权衡。

通过 A/B 测试,可以在有限的纯探索期间内将流量平均分配给变体A和变体B。一旦宣布获胜者,就进入一个漫长的开采期,100%的用户进入获胜变体。这种方法的一个问题是,在尝试收集数据并了解哪个变体是赢家时,会有很多资源浪费在失败变体上。

通过多臂老虎机测试,测试是适应性的,同时进行探测和开采。它会逐渐将流量转移到获胜变体,而不是在等到实验结束时宣布获胜者。此过程更快、更高效,因为流量发送到明显较差变体时间更少。

多臂老虎机测试的主要缺点之一是其计算复杂性。简而言之,运行多臂老虎机测试更加困难和需要更多资源。

在一些已知情况下,多臂老虎机测试通常效果最好:

头条新闻和短期广告系列

等待A / B测试结果的机会成本使老虎机算法成为短期内容的更好选择,例如标题测试用于新文章或节日促销。

长期动态变化

当被测试项目发生重大变化,使得 A/B 测试结果随着时间推移变得无效时,往往需要重新测试。这种情况,能够不断探索的多臂老虎机可以提供了替代方案。

受众定向

受众定向是长期使用老虎机算法的另一个例子。如果某些类型的用户比其他用户更常见,则多臂老虎机可以更快地为常见用户应用学习到的定位规则,同时继续对不太常见的用户进行试验。

规模自动化

如果有多个组件需要持续优化,多臂老虎机方法提供了一个框架,可以部分自动化低风险问题的优化过程。这些问题单独分析成本太高,不适合A/B测试,因此可以选择多臂老虎机持续自动优化。

云眼如何使用多臂老虎机

云眼使用一些多臂老虎机算法来智能地更改变体之间的流量分配以实现目标。可以在目标之间进行选择:

  • 尽快找到具有统计意义的变体 – 统计加速器
    • 通过向更多访问者展示更有可能达到统计显著性的变体来缩短实验的持续时间。
    • 在一段时间内最大限度地增加从实验中学习的内容,从而减少等待结果的时间。
    • 尝试发现尽可能多的重要变化。
  • 最大化奖励并减少遗憾 – 多臂老虎机 (MAB)
    • 允许在实验生命周期中尽可能多地利用领先变体的价值,从而避免展示次优体验的成本。
    • 不生成统计显著性。
    • 将汤普森采样算法用于比率类型指标。
    • 对数值指标使用 Epsilon-greedy 算法。