假设你有一个类似于 的总体集。将所有偏差相加得到 ——显然有些不对劲。通过在求和之前对每个偏差求平方,我们可以消除负数的影响。在对所有平方偏差求和后,除以总体规模,以通常的方式得出平均值。这给了我们方差 σ(西格玛平方)。 那么为什么要开平方呢?好吧,假设我们在计算距离或百分比。 如果我们用单位来表示偏差,我们会说“六米加或减一米平方”之类的话——我们的单位不匹配,所以数学没有意义。通过开平方,我们可以回到单位应该在的位置。看,毕竟不是那么糟糕,不是吗? 标准差是什么?泊松分布 正态分布非常适合事件发生非常紧密的情况,因此它们几乎是一个连续的过程。
例如,在一周内,如果您有 名访客,则每分钟都会有一名访客 几乎是连续的。当您每周有几百名访客转化交易时,每个事件都成为罕见事件 它们之间存在可测量的差距。 因此,您的数据将不再具有正态分布,而是泊松分布(对于那些 澳大利亚 whatsapp 号码数据 想知道差异的人,我建议您参考中心极限定理,您可以从中证明泊松分布在足够小的间隔内变为高斯分布)。但在这种情况下,事情非常简单 标准偏差实际上是您的时间段内预期发生次数 λ 的平方根。因此,如果您的数据为您提供了过去六个月的预期每周转化次数为λ=,并且您根据模型预测下周应该获得 次转化,那么您可以向您的 显示每日转化次数 ± 这个数字。
这些有什么用呢? 正如我在文章开头提到的,标准差最有用的一点是能够表明你对数据的信心程度。 对于正态分布的情况,一个标准差包含 的数据点,如这张可爱的图表所示。 具有一个、两个和三个标准偏差标记的高斯分布 两个(更准确地说是 个)标准差会为您提供 的置信区间,并且您可以 地确信某个点会落在三个标准差之内。 将此应用于 ,想象一下您遇到这样的情况:客户想知道他的电子邮件简报是否产生了效果。您可以回顾数据,无论多长时间对您有意义,然后找到平均值和标准差。如果您在简报发布时看到直接访问和推荐访问量达到峰值,则可以计算出那些天的访客平均数(当然,如果您没有看到峰值,您已经知道答案了 恐怕要重新开始)。