北京字典价格联盟

抽样搞错,“P”都没用

只看楼主 收藏 回复
  • - -
楼主

数据分析师大猫刚刚应聘进入了一家新公司,便接到了一个分析项目,大猫信心十足,在加班,甚至熬了一两个通宵后,终于把这篇分析报告写完了,他伸了伸懒腰,带着无限的满足感,准备交差。经验丰富的他,在交差之前,又把分析思路捋了捋,把使用的统计方法及理论又深究了一番,将数字、文字又校对了一遍。信心十足的交给了他的总监。

但在总监看到报告后,第一个问题就把他问懵逼了。

大猫是哭呢还是笑呢?

我们先来看两个小故事,均为真实案例,但笔者并没有详细考究。

在二战史上,美国空军迫切需要解决一个关键问题,美军希望通过加强战斗机的防护装甲,来降低被击落的数量,但装甲不能够铺满整个机身,否则会降低飞机的有效载弹量,降低战斗力。于是,·沃尔德(Abraham Wald)。沃尔德要求搜集飞机的着弹点,发现返回的战斗机伤痕集中在尾炮和机翼,尾部、机舱、发动机等着弹点统计数量较低。各位看官,你会有什么样的结论,得出什么样的结果,采取什么样的策略?

空军高层建议加强对这些伤痕累累部位的装甲。

比第一个案例更好玩,还有一个。(该案例我依稀记得是微博数据化管理中提到的,但现在记不清楚了)。

有一个做的不错的企业家,主业是生产宠物食品。有一天去北京出差,在书店里无意中看到一本书,关于如何通过市场分析,获得提升销量。感觉如获至宝。回到公司后,立刻组织员工进行调研,圈定了调研对象,问卷设计,问卷回收,问卷分析,并根据分析结果进行了产品改进,包装优化。于是乎,满怀喜悦的投放市场,静待销量的爆发,但静待的结果是惊呆。爆发是爆发了,但爆发之后,销量急剧下降。这种感觉,很多男童鞋们深有体会。


好了,上面两个案例,各位心中想必有答案了。

沃尔德坚决反对空军高层的建议,机身和机翼着弹点多,但这些飞机仍然能飞回来,说明这些地方最不需要装甲加强,而尾部、机舱、发动机着弹点少,但恰恰说明这些位置中单的飞机,飞回来的少。显然需要增加这几个位置的装甲。显然,空军高层研究的范围小了,遗失了部分样本:能飞回来的飞机,显然是没有坠毁的,那些坠毁的根本就没飞回来,统计的着弹点,显然遗失了这部分的数据。

这就掉入了幸存者偏差的陷阱,同样,我们现在现实生活中遇到很多类似的问题。大家可以展开想一下,在下下篇文章《学统计、保智商》,我会详细阐述该问题。

那么,第二个例子,就更有意思了,显然这个企业家搞错了调研对象,外观包装改善,的确是满足了宠物主人的需求,但口味呢?你问汪星人了吗?

很多时候,我们在写一份调研报告时候,一定要细细思量调研对象是谁?抽样是否能代表总体?

因此,一旦将研究对象或者抽样方法搞错了,就不要纠结于P大于0.5还是小于0.5,因为后者毫无意义。

差之毫厘谬以千里所谓兼听则明,偏听则暗,等等,很多哲理性的语句反映出这样的道理或者逻辑。研究对象搞错、抽样有偏,得出的结论公正性、正确性就有待商榷。基于此得出的结论恐怕要打个大大问号。



举报 | 1楼 回复

友情链接