为什么大多数A / B测试给你胡说八道结果

到目前为止，产品或营销中的任何人都知道A / B测试是什么。我们不知道的是或至少不承认，这是太多的A / B测试不会产生任何东西。

他们经常测量毫无意义的变体，产生不确定的结果，没有任何东西来自它们。当然，一些A / B测试产生真实，有意义，可操作的结果。那些听到的那些。我们都看过这篇文章。公司X公司会随着这个简单的技巧提高了38％的转化。地狱，我写了一些。

但是那些成功的故事隐藏着测试和实验的灰色底层。

Appsumo透露，8个测试中只有1个产生结果。Kaiser Fung估计，80％至90％的A / B测试他正在运行统计上微不足道的结果。

然而，许多新的测试人员走进A / B测试，思考它会快速且易于获得结果。经过少数简单的测试后，他们认为他们会找到这个按钮的正确颜色或向该主题行的右侧调整，然后转化为POOF，增加38％，如魔法。

然后他们开始在他们的应用程序或网站上运行测试，并且现实突然设置。测试不确定。它们产生“统计上微不足道”的结果，对产品或用户没有有价值的见解。发生了什么？哪里是38％的凹凸，随后拍了拍？

不要沮丧。如果您将运行A / B测试，您将有一些未能产生有意义的结果的测试，您可以从中学习。但是，如果您运行良好的测试，您将有更少的故障和更成功。通过跑步思考A / B测试，您将获得更大的统计上显着的结果和实际学习，以改善您的产品。

8 A / B测试中的七个是不确定的，我们不会谈论它们。

想象一下，你正在折腾两个硬币，每次20次。投掷了头部12次的土地。和硬币b在九次头上落在头上。你不会急于宣布你发现了一个硬币，在头上的着陆时成功33％，对吗？从你对硬币的理解，你知道差异只是偶然的。它没有统计学意义。

现在，如果你扔了另一个180次的硬币，并且落在头上120次落在120次上，硬币落在头上90次，显然发生了重要的事情。但是，再次，我们知道这不是会发生什么。在200次掷200℃后，每个人都落在头上有多少次，但这将是机会。任何区别只是噪音。

这似乎是一个愚蠢的实验。当然，两个硬币不会明显表现得显着不同。但是，老实说，这恰恰是为什么这么多A / B测试产生不确定的结果。我们浪费时间测试变体，没有任何真正的有意义的差异，并且不出所料，我们最终通过一堆具有统计上微不足道的结果的测试。

如果有人应该责备，那就是愚蠢的按钮榜样的错

按钮颜色实验是“你好，世界！” A / B测试。这是一个简单的例子，可以解释概念。因此，无故障，任何时候都是第一次解释A / B测试，某人使用按钮颜色示例，其中页面的一个变体具有绿色购买按钮，一个有一个红色按钮。您运行测试，并查看哪个颜色按钮具有更高的转换速率。

事实是，一些公司已经进行了按钮实验，实际接受了有意义的结果来改善其产品。如果您希望您的用户与某事物互动，则仍然存在突出的价值。也就是说，由于大多数人已经过实验发现了发现，而按钮颜色是描述A / B测试的绝佳方法，它很少有意义地改善产品的方法。

我大约两个月前跑了自己的毫无意义的测试

MixPanel很少向我们的主列表发出电子邮件。我们通常只会通过向已订阅我们博客订阅的用户的新文章。但是自大派遣以来已经有了一段时间，所以我们可以通过电子邮件发送最新的电子邮件，并告诉系列的大量用户。它似乎是运行真正快速A / B测试的绝佳机会。

电子邮件有一个“为什么1500万用户对此移动琐事应用程序不足以不足以”的主题行。但我听说，使用公司名称开始电子邮件可以提高开放率，所以我用主题线制作了一个变体，“MixPanel - 为什么1500万用户对此移动琐事应用程序不够好。”容易，对吗？如果它表现得更好，我们可以将我们学到的使用，以我们的名义增加每个主题，增加我们所有电子邮件的开放利率，并希望增加结果。

电子邮件出现在成千上万的用户中，分为两个版本。然后我不耐烦地等待我的成功来进来。

当结果进来时，它们在统计学上不太重要。没有“MixPanel”的主题线具有22.75％的开放速率。“MixPanel”的主题有22.73％的开放率。差异为0.02％。

数以万计的电子邮件稍后发送，我的测试差异为20，打开。对于所有意图和目的，我正在翻转硬币。

即使具有如此大的样本大小，我的测试中也没有足够的对比，以产生显着的结果。我没有学到任何东西，除了更认真地考试。

那么我可以做些什么来获得更重要的结果？

好吧，首先，我本可以完全测试一个完全不同的主题线 - 就像少的闪烁但更多的语义文章标题“为什么Quizup将历史上最快的游戏变为社交平台。”对比将产生统计上显着的结果的可能性更大。

但即便如此，除了一个比其他人做得更好的事实，我将学到什么？我会从中取出哪些行动？也许如果我测试了几次，我可以达到众所周度的读者才能达到闪烁闪烁的主题线或语义。

我的测试是毫无意义的，因为它没有很好地构造，它不是一个更大的策略的一部分，提出了关于读者至关重要的内容的肉体问题。这很简单，但它没有去任何地方。A / B测试永远不会像看起来那么容易。如果您想要结果，它需要工作。要么在思考和战略性地测试许多少数事情，都希望找到一系列小的改进，如不同的图片，略有不同的设计，以及打电话中的文本的变化。这是A / B测试人员的一个阵营，“优化了成功的方式”测试人员。其他阵营包括那些开发产品的特征的人，并且测试众所周知的不同体验，例如重新加工用户的过程。

您可以使用A / B检测找到宝贵的课程并改善您的产品，但需要一些艰苦的工作

我不是唯一一个仔细考虑这个。最近，我与jobr的Cofounder的Cofounder谈过，关于一些不那么无意义的A / B测试公司进行了改善用户收购。

“我们想改善我们的船上流动，以便在应用程序中获取更多用户并刷新”Hari，告诉我。

Jobr是一个应用程序，允许求职者通过策划的工作机会刷新，挑剔风格。

“我们在我们的漏斗中确定了两个关键步骤，并为每个实验构建了足够宽的变体列表，以确保适当的覆盖范围。在通过每个变体发送足够的流量后，我们能够将优化的流量纳入225％的优化流程并提高转化。“

Jobr基本上重建了它的船上过程，通过数据删除了上一个进程的数据来了解。

COZI的A / B测试更多地“优化了您的成功之路”营地。在去年夏天的办公时间谈话，Cozi产品老板Tara Pugh回顾了公司自己从用户拆除了摩擦的过程。

在假设后测试假设后，塔拉和Cozi的团队能够将学习的比例纳入流动。有些是小美学调整，如切换到更轻的背景。其他更改更大的更改，要求用户执行较少的步骤并从过程中删除摩擦 - 类似的预制表单和消除复选框。

没有单一的变化导致转换的主要增加。但结合了，改善将注册完成率提高到55％至76％。

运行产生有意义结果的测试

这些实验能够逃避A / B检测的常见失败并不是随机的，以提供有意义的结果。构建实验以测试产品的有意义方面，对用户如何表现的强烈影响的方面。而且，当然，实验已经运行足够的时间来产生统计上显着的结果。

所以，如果你厌倦了废话结果，你想在转换中生产38％的升力，以便在后面拍拍，然后投入工作。花时间构建有意义的A / B测试，您将获得有意义的结果。