⼤数据时代,你应该具备的⼤数据思维我们在思考问题时,当尽量避免因为⾃⼰的⽆知,提出⼀些低级的问题来。
我经常会被⼀些低级的问题,搞得没了耐⼼。⽐如下⾯这样的:
为什么⾼考状元,最后都很平庸?
我读了清北,以后可以进投⾏吗?
为什么学区房那么值钱,但学历不值钱?
为什么⼀个哈佛毕业的,收⼊还⼲不过咪蒙?
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 957205962, 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2018最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴
上⾯这些问题,在很多场合都引起了⼴泛讨论。⽐如学区房和学历那个,不少⼈了⼀堆理由来解释。但在我眼⾥,它们都是很低级的问题。
为什么?
因为它们都包含了极其低级的,不符合统计学常识的错误。具体有哪些错误,后⾯我会提到。
如果提问者懂⼀些统计学的常识,很多问题根本就不应该被提出来。要避免犯蠢,提出合理的科学的问题,就应该懂⼀些基本的统计常识。以下内容,学过数学/统计学/计量经济学的同学,应该知道我在说什么。如果你不知道,那请你回去⾯壁思过⼀下。
1
样本偏差
⼈们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不⾜导致的偏差。
⽐如,你说吸烟有害健康,劝⾝边⼈戒烟。烟民们常⽤的借⼝是这样的:
大数据要学什么你看隔壁王⼤爷,都九⼗岁了,抽烟抽了⼀辈⼦,照样健健康康的。张⼆蛋,烟酒不沾,三⼗岁就归了西。所以呀,抽烟有害健康,都是扯淡骗⼈的!
⽐如,有⼈跟踪过每年的⾼考状元后来的职业发展路径,最终发现这些状元,绝⼤多数并没有成为⼈中龙凤,国之栋梁,于是他们得出结论:
⾼考状元最终将⾛向平庸,⾼考对筛选⼈才并没什么卵⽤!
再⽐如,⼏个清北毕业的⼈,上知乎回答了个问题,说⾃⼰清北毕业,也买不起学区房,甚⾄也在北京留不下来,于是就有⼈得出结论:
清北的学历不如学区房值钱!
以上的例⼦,统统犯了⼩样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。
看吸烟是否有害健康,应该看的是整个烟民体和⾮烟民体的⽐较,光⼀个王⼤爷和张⼆蛋怎么能得出结论。
⾼考状元的容量加起来不过⼏百⼈,但⾮状元⼈数上千万,⼏千万⼈当中出现马云马化腾,当然更正常。
说清北毕业买不起房的,也只是发声的少数⼈,⽽那些闷声发⼤财的清北⼈,看到这样的结论,恐怕只会默默地骂⼀句SB。
说到样本偏差,就必须提到有名的「红球实验」。
假设有两个盒⼦:A和B.
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 957205962, 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2018最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴
A盒:2/3的红球,1/3的蓝球。
B盒:2/3的蓝球,1/3的红球。
现在我们把两个盒⼦遮起来,从中随机抽取⼩球出来。换句话说,这个时候,你不知道哪个是A哪个是B,只知道盒⼦1和盒⼦2。
我们从盒⼦1当中抽取了4个红球和1个蓝球,⼀共5个。从盒⼦2当中,抽取了20个红球,10个蓝球,⼀共30个。也即是:
盒⼦1:4个红球,1个蓝球,共5个。
盒⼦2:20个红球,10个蓝球,共30个。
现在问,哪个盒⼦更有可能是A盒,是1还是2?
多数⼈的答案是1。因为1当中红球的概率是80%,⽽2当中只有67%。A盒当中的红球概率更⾼,所以1是A盒。
但答案恰恰相反,盒⼦2才更有可能是A盒。因为在更多的样本量下,它保证了红球的概率远⾼于蓝球。
学过概率论的同学应该马上反应出来,这是⼀个典型的条件概率问题,⽤贝叶斯公式可以很容易计算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂公式的同学可以略过,你需要记住⼀点即可:
统计推断,样本量越⼤,越可靠。基于⼩样本的结论,往往都存在问题。
以后不要再很蠢地说,你看,名校毕业的也在北京买不起房,所以学历没什么卵⽤。
2
相关性
混淆相关和因果,不能建⽴多元相关思维模型,简直是⼈们犯蠢的重灾区!
因果的意思是,A的发⽣必然会导致B,B的发⽣必然以A的发⽣为前提。相关则不⼀定,仅仅可能是A,B同时发⽣了。
⽐如暴饮暴⾷导致胃痛,就是⼀种因果关系。吃太多胃承受不了,必然会痛。胃之所以会痛,就是因为你吃了太多东西进去(控制其他变量的前提下)。
但名校毕业和赚很多钱,这就不是因果关系。这只是⼀种相关关系,⽽且是⼀种多元的相关关系。
换句话说,赚钱这个事实,不仅和学校学历相关,还和很多其他因素相关,⽐如长相、⾏业、冒险精神等等。
现在明⽩我为什么说上⾯那些问题很蠢了吧。谁告诉你清北毕业就⼀定可以去投⾏?同理,谁告诉你,哈佛的学⽣就⼀定⽐咪蒙赚钱赚得多?
清北毕业和去投⾏,只是相关性,且只是相关因⼦当中的⼀个,同理,哈佛毕业和赚钱多,也是这个道理。
如果把⼀个结果称为Y,诸多和它相关的因素称为X,那么Y和X的关系应该是:
Y=AX.
其中A=[a0,an], X=[x0,x1,x2…xn]’
以上是⼀个最基本的多元相关模型。⽐如,赚钱是Y,那它对应的X,包括了学历、起始资本(家庭背景)、努⼒程度、长相,等等。
如果以多元相关模型来思考问题,根本就不可能提出为什么⼀个哈佛的还不如咪蒙赚得多这种愚蠢的问题。
明⽩了这⼀点,你也不会再提凭什么奶茶长得好看就可以搞定东哥,为什么美联储加息了股票反⽽上涨,名校毕业的不如技校毕业的赚得多,这⼀类愚蠢的问题了。
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 957205962, 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2018最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴
简单来说,记住⼀点:
事情的发⽣,往往都是⼀个复杂系统⾥,多因素共同作⽤的结果。
凡事都尽量避免⽤单因素模型去解释。这是避免你变得很蠢的重要思维法宝。
3
控制变量
控制变量的意思是,控制了这个因素,来看其他因素对事物发⽣的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的⼀种控制变量的假设。
回到我们之前讨论的名校毕业挣钱不多的问题,名校毕业照样买不起学区房,很多⼈据此得出结论:
名校也没什么卵⽤,甚⾄上⼤学也没什么卵⽤,照样买不起房,还不如王⼩⼆开个煎饼摊⼦挣得多。
这个推理最⼤的问题就是控制变量的不可⽐。
你在对⽐名校毕业⽣和开早餐铺⼦的王⼩⼆时,隐含了⼀个极为重要的有关控制变量的假设:
除去学历这个因素,其他条件都是⼀样,且不变的。
但很显然,⼀个清北毕业⽣和没上过⼤学的王⼩⼆,除去学历的不同,在其他⽅⾯,也就是控制变量⽅⾯,也存在巨⼤的差异!
换个思路,不⽤横向对⽐,纵向来看,假设其他条件不变的情况下,⼀个清北毕业⽣,没有清北的学历,他会过得更好还是更惨?
这样的⽐较才是有意义的。
同理,也只有⽐较具有类似家庭背景,长相⽔平,努⼒程度的清北毕业⽣和⼀般学校甚⾄没上过⼤学的⼈,他们谁挣钱多,这样的⽐较才是有意义的。
英⽂当中有个很好的表达叫 Apple to Apple,就是⽐较对象要要⼀致。可惜我们⼤部分⼈做的都是Pear to Apple这样的⽐较,毫⽆意义。
再说⼀遍,我们考察单⼀变量对结果的影响时,⼀定要保持控制变量的不变且可⽐。不然这样⽐较得出的结论,毫⽆意义。
你不能因为天天撩妹的王思聪,⽐天天⼯作⼗六⼩时的投⾏民⼯,钱更多,就据此否认努⼒⼯作没有⽤。你也不能因为同学有个好爸爸,就否认平民家庭出⾝的⼈奋⽃没有意义。
在考察努⼒这⼀变量对成功的影响上,你和王思聪的“控制变量相同”的假设并不成⽴。
反过来,就你⾃⼰⽽⾔,控制其他变量不变,你不努⼒和努⼒的结果差异,⼀下⼦就会清晰起来。这才是思考问题的正确⽅式。
不少反鸡汤⼈⼠认为,努⼒没什么⽤,家庭出⾝决定⼀切,先天条件决定⼀切,时代⼤势决定⼀切,这些论点,统统都是愚蠢的,也是错误的,因为他们忽略了控制变量的因素。
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 957205962, 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2018最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴
4
系统思维
统计常识除了以上三点,还有很多。⽐如假设检验,样本和母体的关系,统计⼀类和⼆类错误,置信⽔平等等,⽂章⾥没办法⼀⼀讲述。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论