统计数字会撒谎
统计是一门神秘的语言,尤其在一个讲求事实的社会里,它更是有着无法匹敌的魅力。每一项严谨的统计,研究人员都会尽可能地降低误差,力求真实准确;但也有一些人,利用统计过程中不可避免的误差,甚至人为地制造迷雾,混淆视听。
说到底,是因为绝大多数人对数字有一种天生的畏惧。
上世纪50年代,美国统计专家达莱尔·哈夫在《统计数字会撒谎》中,通过诸多活生生的案例,深入浅出地揭示了统计学基本原理,“揭露了至今仍然被销售员、广告人、记者甚至专家频频使用的大量的统计操纵技巧。”
来举几个例子吧。
如果你看到一则广告说,某个高考培训机构“今年的‘一本’率比去年提高50%”,会不会觉得这是一所势头强劲的学校?但实际情况也许是,去年有两个考生考上重点大学,今年有3个,而这所学校的考生总数是200人。看到了吧,50%的增长并非虚构,但这个数字背后,却隐藏了更重要的事实。
另一种“撒谎”的办法,就是小样本。春节之前某记者“随机”采访了5个人,结果其中3个说过年不打算回家了,于是记者得出结论——60%的人今年春节不回乡。面对火车站的滚滚人流,这个数字诡异得有些扎眼。正如达莱尔·哈夫说的,“只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也可以达到上述效果。”
这么说或许更清楚:常识告诉我们,翻硬币时,正反面出现的几率各有50%;可如果你翻10次,很可能会出现8次正面的情况——这时候,是不是概率变成了80%?当然不。因为当你一直翻下去就会知道,次数越多,正面出现的概率就越接近50%。
还有一种“撒谎方式”是利用样本的偏差。举个极端的例子:如果你在问卷中设置一个这样问题—“你愿意参加调查吗”,很可能得到的结论是压倒多数的人选择“愿意”。而事实上,大多数持否定意见的人,已经随手将问卷丢进废纸篓,从样本中自动除名了。所以,下次不妨长个心眼儿,就像《统计数字会撒谎》这本书里告诉我们的,在看到“67%的人反对”某事的字眼时,应该保留这样一个问题:67%指的是哪部分人?