(一)拨开生活中的数字迷雾,警惕数据的陷阱
(⼀)拨开⽣活中的数字迷雾,警惕数据的陷阱
数据是客观的,但数据的搜集和解释是带着⽬的的,是主观的。同时数据也总是不完整的,只代表了历史,⽽且只是事物的某⼀个⽚段,同时数据会随着时间和空间的变化⽽所传达的信息有所变化,数据中承载的信息是有限的,不可能⽀持⽆数的故事叙述,我们⼀直希望从数据中可以出些什么模式、⽽实践是检验数据的标准,但同时我们也需要对数据保持者严谨和怀疑的态度。
源头如果错了,⼀切全错,越⾛越远......
1、数据⽬标陷阱
(1)选错⽬标体
英国政府 2015 年开始同意让⽗亲和母亲共休产假。但⼀年后的统计数据却显⽰,只有 1% 的⽗亲选
择了休假。BBC、《卫报》等各⼤媒体报道之后引发强烈社会反响。真的是这样吗?原来,这个 “1%” 的分母不是“有资格休假的⽗亲”,⽽是“所有男性”。有⼈指出,如果这么算,即使当年所有新⽣⽗亲都选择休假,调查得到的数字也只不过是 5%。
2、数据设计陷阱
(1)样本量不⾜——以偏概全
最准确的数据集不仅要很⼤,还要很⼴泛。如果⼀个地质学家要调查⼀个沙漠的地址类型,那么在沙漠的不同地点收集⼀些数据,要⽐在同⼀个地点收集1000个数据更准确。如果你限制数据集的规模,就可以显著地影响调查结果。
关于动物的电影
我们经常在⼴告⾥听到,因为使⽤某品牌⽛膏,⽛齿美⽩度增加20-30%,可实际上,⼴告所给出的数据并没有告诉我们调查的细节,经过跟踪发展,所谓的数据样本只是针对12个⼈做的调查。
⼩明抛了5次硬币,4次出现正⾯,1次出现反⾯,于是⼩明说抛硬币出现正⾯的概率为80%,以后跟⼈抛硬币打赌都选正⾯,这是对的么?
⽐较⼩的学院在做研究项⽬时,经常会错误地把控制集的调查结果与普遍结果划等号。这可能是因为院校⽔平在做研究时,没有办法针对⼴泛、随机的城市⼈⼝进⾏调查,⽽是更多地⾯向⼤学⽣⼈。同样地,只要把这种情况说明就可以了,但是⼀些新闻机构为了发表耸⼈听闻的报道,就会将细节模糊化,利⽤院校⽔平的调查结果来以偏概全。
之所以样本量过⼩会影响结果,可以从这两点分析:随机性和异常值。所谓概率事件,表明事件出现的可能性会围绕概率值出现不确定的上下波动,但总体与概率趋于⼀致。单次事件是具有随机性的,样本量过⼩时,会被随机性深深地影响;关于异常值在不同样本量数据中的影响。
(2)样本缺乏代表性——选择性抽样
抽样调查的样本如果不具有代表性,得出的结论⽆法代表整体的实际情况。刻意安排样本的构成,可以操纵抽样调查的结果。
1936年美国⼤选,当时有超过两百万订户的流⾏杂志《⽂学⽂摘》做了⼀个候选⼈⽀持率调查。《⽂学⽂摘》共寄出了1000万份问卷,回收237万份。这应该是⼈类历史上有据可查的规模最⼤的抽样调查,当时美国⼈⼝不过1.3亿,有投票资格的⼈不过4000万⼈。根据中⼼极限定理,样本越⼤结果越逼近真实,这种规模的抽样调查,其结论的准确性应该基本等于⼤选结果,所以《⽂学⽂摘》对⾃⼰
信⼼满满。
然⽽,最终的选举结果令⼈⼤跌眼镜——《⽂学⽂章》预测胜选的兰登以8:523的悬殊差距输给了罗斯福。杂志的声誉也因此⼀落千丈,没多久就黄了。
蝴蝶的一生
《⽂学⽂摘》寄出去的1000万份问卷,主要有三个选择标准:第⼀是汽车登记,第⼆是俱乐部信息,第三是电话黄页,通过这三个⽅式可以⽐较⽅便地获取收件地址。问题是,拥有汽车的是什么⼈?有钱⼈。俱乐部会员是什么⼈?有钱⼈。那个年代有电话的⼈是什么⼈?还是有钱⼈。罗斯福的新政,损害的是有钱⼈的利益,有钱⼈⾃然不⽀持罗斯福。这样选择样本做调查,最终得出的结论并不能体现4000万选民的整体意愿。
某公司要调查产品满意度,⽽且打算公开调查记录以⽰公正。在选择样本的时候,该公司调出购买了产品⽤户的消费记录和⽤户信息,综合考虑后,选择了⼀批收⼊和消费⽔平⾼、好评率⾼、退货率低的⽤户作为样本进⾏满意度调查,并在调查时赠送精美礼品。最终得出的结论是该公司客户满意度极⾼。接下来该公司的⼴告主打“本产品在⼤类⾥消费者满意度排名第⼀”。
根据⽤户的消费习惯、⽣活地域、性别、⽣活阶层,⼈为安排抽样样本的构成,从⽽操纵调查的结果,进⽽⽤这个结果误导更多的⼈,这样的操作屡见不鲜。
(3)样本缺乏代表性——幸存者偏差
⼀个⼩故事:⼆战时军⽅对战机损毁的原因进⾏分析得出机翼受员是造成飞机损坏的最重要原因,然后展开⾏动改进机翼以求减少飞机的损毁,但收效并不明显,为什么?真正的原因是由于数据抽样不正确:受损分机简单可以分为两类,⼀类是受损后仍可以返航的;另⼀类是受损后⽆法返航的;⽽⽤来做统计的分析来⾃于第⼀类数据,即能够返航的飞机,⽽严重受损⽆法返航的却未被计算在内,有缺陷的数据源,“说谎”的结果。
不完整的抽样数据源,所得出的分析结果⾃然会出现偏差。正如做发布软件稳定性分析时候,统计数据的来源往往只会来⾃于某些经常往来的客户,并且是那些相对来说很严重的问题反馈,⽚⾯的数据收集使得数据结果并不能真正的反映软件运⾏情况,只能是参考或是添加其它变量辅助分析。
某公司在员⼯论坛开设留⾔板,员⼯可以匿名发表评论。经统计,留⾔板的内容⾥对公司不满发表意见的占⽐⾼达63%,由此推测该公司员⼯满意度较低。实际上,如果⼀个⼈⼼⾥有意见,可能会更倾向于在留⾔区吐槽,⽽且这还是不需要负责任匿名评论。如果⼀个⼈对公司很满意,他可能未必会去留⾔板给领导点赞,同时如果⼤家知道虽然是匿名,但有可能系统还是会记录⾃⼰是谁,结果⼜可能会不同。因此,以留⾔板上内容的⽐例作为判断样本,结果会出现失真。
(4)样本缺乏代表性——诱导与⼲扰
青岛订婚风俗⼲扰被调查者的思考
问卷A是这么问的:“1.你是否⼈为⼈的⾃由是宝贵的?2.你是否认为政府不应该过分⼲预⼈的⾃由?3.你⽀持全⾯禁烟吗?”
问卷B是这么问的:“1.你是否赞同吸烟有害健康?2.你是否同意政府有责任保护公民健康?3.你⽀持全⾯禁烟吗?”
如果最终关注的只是第三个问题的答案,这两套问卷统计出来的结果肯定差别很⼤。
还有其它的⼲扰⼿段,导致被调查者不知道如何回答,失去耐⼼,敷衍了事,故意隐瞒。
迎合调查者的意愿望洞庭课件
被调查者往往会迎合调查者的意图⽽给你⼀个满意的答复,很多时候,只要样本的趋势偏于和所要达到的⽬的相⼀致的⼀⽅,就能起⾃动操纵的作⽤。
⼆战时期,美国国家民意调查中⼼派出两组调查⼈员,向⼀个南⽅城市500名⿊⼈,调研提问3个问题,⼀组调查员是⽩⼈,⼀组是⿊
⼈。其中⼀个问题:如果⽇本征服没过,他们对待⿊⼈会更好些,还是更坏些,
⿊⼈调查员调查结果:9%-更好;25%的⿊⼈认为将受到更坏的待遇
法制教育黑板报⽩⼈调查员调查结果:2%-更好;45%的⿊⼈认为将受到更坏的待遇
这种即是由⽆形因素造成的偏差,看来实际的因素是被调查者往往会迎合调查者的意图,⽽给你⼀个满意的答复,这是在阅读任何民意调查结果时,都必须⼗分注意的问题。在战争时期,对于⼀个隐含着对国家不忠的提问,⼀个南⽅的⿊⼈回答⽩⼈调查员的尽是⼀些冠冕堂皇的话,⽽不是他实际相信的东西,这难道有什么值得奇怪的吗? 另外不同的调查员也可能去不同类型的⼈去交谈。
(5)不平衡的数据集合
鲁迅生平简介
⼀⾯向⼤家提供很多细节,⼀⾯巧妙地撒谎。其中的⼩技巧就是把那些其实并不能相提并论的数据放
在⼀起⽐较。例如,如果你把⼀座原有100000⼈⼝、10年内新增加10000⼈⼝的⼤城市,和⼀个原本有10个⼈、10年内增多了10个⼈的⼩城镇⽐较,那么就可以说⼩城镇⼈⼝增长更快。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。