证明改进真的奏效：写给没学过统计的人的假设检验

By XNM Technologies · November 11, 2021 · 1 min read

一家区域分销商的收货团队确信自己解决了长期的延误。在 2021 年，疫情时期的供应中断拉长了他们的订单确认周期，而在一次工作流改动之后，数字看起来好转了。改进负责人想宣布胜利。她的黑带却轻声问了一句：我们怎么知道这不只是一个走运的月份？这正是假设检验存在的意义。

使用它并不需要统计学学位。在 DMAIC 的改进和控制阶段，假设检验只是提供了一种严谨的方法，用来判断你观察到的差异是真实的，还是可能只是噪声。整个思路建立在一个起初让人不太舒服却很有力的思维习惯上：你一开始就假设你的改动什么也没做。

两个相互竞争的主张

每一次检验都会提出两个陈述。原假设说没有真实差异——改动前后实际上一样，任何差距都是偶然。备择假设说确实存在真实差异。然后你问：如果改动真的什么也没做，我们实际看到的结果会有多让人意外？

先用平实的语言把问题说清楚。 我们的问题是：新的工作流是否降低了平均确认时间？“平均”是关键词——它指向比较两个均值。
选择匹配的检验方法。 在小时这类连续指标上比较改动前组和改动后组的均值，用的是双样本 t 检验。若比较合格率/不合格率，则应改用比例检验。
在查看结果之前就设定阈值。 团队选择了常用的显著性水平 0.05。事先决定可以防止你为得到的任何结果找借口。
把 p 值读作“运气”的概率。 它估计的是：如果改动实际上什么也没做，看到这么大差异的概率有多大。低于你的阈值时，就拒绝原假设，认定改进是真实的。

团队抽取了改动前的 30 条确认记录和改动后的 30 条——足够有意义，又容易收集。改动前平均约为 19 小时；改动后约为 14 小时。t 检验得出的 p 值为 0.01。由于它低于 0.05，结论很清楚：这么大的降幅不太可能是运气。改进是真实的。

那些会骗倒诚实之人的陷阱

把“不显著”混同于“没有效果”。p 值偏高往往意味着样本太小、无法判断，而不是什么都没变。
把 0.05 这个阈值奉为神圣。p 值为 0.06 并不是失败；它是个信号，提示去收集更多数据，而不是放弃。
忽视实际意义。一个改动可能在统计上是真实的，却小到在运营上无关紧要——务必问问效果的大小是否值得这份投入。
反复挑选时间窗口，直到数字配合为止。在偷看结果之前就定好你的抽样方案。

对这个团队来说，真正起作用的并不是数学——软件几秒就算完了。而是这样一套纪律：先界定问题，再选择检验方法，并在查看之前先承诺一个阈值。这套顺序把一个充满期望的轶事，变成了能在持怀疑态度的运营总监面前站得住脚的证据。改动得以保留；而当后来一次微调没能跨过同一道门槛时，团队有信心把它撤回，而不是把一个并非改进的东西推上线。

假设检验不是为了在数字上耍小聪明。它关乎对不确定性的诚实——拒绝把一段好运误当作持久的收益。对任何想证明某项改进值得保留的团队而言，这份诚实正是全部的要点。

如果您的团队在不断做出改动，却无法证明哪些真正奏效，XNM 的战略咨询可以帮助您建立衡量的纪律，把真实的收益与噪声区分开来。

当冲刺被打断时：Scrum 团队的实用工作法

November 14, 2021

证明改进真的奏效：写给没学过统计的人的假设检验

两个相互竞争的主张

那些会骗倒诚实之人的陷阱

相关文章

当冲刺被打断时：Scrum 团队的实用工作法

你能信任自己的数字吗？测量系统分析实用指南

拉近干系人距离，又不拆散团队