← 返回所有文章

证明改进真的奏效:写给没学过统计的人的假设检验

By XNM Technologies · November 11, 2021 · 1 min read
证明改进真的奏效:写给没学过统计的人的假设检验

一家区域分销商的收货团队确信自己解决了长期的延误。在 2021 年,疫情时期的供应中断拉长了他们的订单确认周期,而在一次工作流改动之后,数字看起来好转了。改进负责人想宣布胜利。她的黑带却轻声问了一句:我们怎么知道这不只是一个走运的月份?这正是假设检验存在的意义。

使用它并不需要统计学学位。在 DMAIC 的改进和控制阶段,假设检验只是提供了一种严谨的方法,用来判断你观察到的差异是真实的,还是可能只是噪声。整个思路建立在一个起初让人不太舒服却很有力的思维习惯上:你一开始就假设你的改动什么也没做。

两个相互竞争的主张

每一次检验都会提出两个陈述。原假设说没有真实差异——改动前后实际上一样,任何差距都是偶然。备择假设说确实存在真实差异。然后你问:如果改动真的什么也没做,我们实际看到的结果会有多让人意外?

  1. 先用平实的语言把问题说清楚。 我们的问题是:新的工作流是否降低了平均确认时间?“平均”是关键词——它指向比较两个均值。

  2. 选择匹配的检验方法。 在小时这类连续指标上比较改动前组和改动后组的均值,用的是双样本 t 检验。若比较合格率/不合格率,则应改用比例检验。

  3. 在查看结果之前就设定阈值。 团队选择了常用的显著性水平 0.05。事先决定可以防止你为得到的任何结果找借口。

  4. 把 p 值读作“运气”的概率。 它估计的是:如果改动实际上什么也没做,看到这么大差异的概率有多大。低于你的阈值时,就拒绝原假设,认定改进是真实的。

团队抽取了改动前的 30 条确认记录和改动后的 30 条——足够有意义,又容易收集。改动前平均约为 19 小时;改动后约为 14 小时。t 检验得出的 p 值为 0.01。由于它低于 0.05,结论很清楚:这么大的降幅不太可能是运气。改进是真实的。

那些会骗倒诚实之人的陷阱

  • 把“不显著”混同于“没有效果”。p 值偏高往往意味着样本太小、无法判断,而不是什么都没变。

  • 把 0.05 这个阈值奉为神圣。p 值为 0.06 并不是失败;它是个信号,提示去收集更多数据,而不是放弃。

  • 忽视实际意义。一个改动可能在统计上是真实的,却小到在运营上无关紧要——务必问问效果的大小是否值得这份投入。

  • 反复挑选时间窗口,直到数字配合为止。在偷看结果之前就定好你的抽样方案。

对这个团队来说,真正起作用的并不是数学——软件几秒就算完了。而是这样一套纪律:先界定问题,再选择检验方法,并在查看之前先承诺一个阈值。这套顺序把一个充满期望的轶事,变成了能在持怀疑态度的运营总监面前站得住脚的证据。改动得以保留;而当后来一次微调没能跨过同一道门槛时,团队有信心把它撤回,而不是把一个并非改进的东西推上线。

假设检验不是为了在数字上耍小聪明。它关乎对不确定性的诚实——拒绝把一段好运误当作持久的收益。对任何想证明某项改进值得保留的团队而言,这份诚实正是全部的要点。

如果您的团队在不断做出改动,却无法证明哪些真正奏效,XNM 的战略咨询 可以帮助您建立衡量的纪律,把真实的收益与噪声区分开来。