大数据陷阱:需要读懂的10个小故事
⼤数据陷阱:需要读懂的10个⼩故事
⾃2011年以来,⼤数据旋风以“迅雷不及掩⽿之势”席卷中国。⽏庸置疑,⼤数据已然成为继云计算、物联⽹之后新⼀轮的技术变⾰热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨⼑霍霍”向⼤数据,准备在其中逐得⼀席之地。
中国⼯程院李国杰院⼠更是把⼤数据提升到战略的⾼度,他表⽰【1】,数据是与物质、能源⼀样重要的战略资源。从数据中发现价值的技术正是最有活⼒的软技术,在数据技术与产业上的落后,将使我们像错过⼯业⾰命机会⼀样延误⼀个时代。
在这样的认知下,“⼤数据”⽇趋变成⼤家“⽿熟能详”的热词。图1所⽰的是⾕歌趋势(Google Trends)显⽰的有关⼤数据热度的趋势,从图1中可以看到,在未来的数年⾥,“⼤数据”的热度可能还是“⾼烧不退”(图1中虚线为未来趋势)。
在⼤数据热⽕朝天前⾏的路上,多⼀点反思,多⼀份冷静,或许能让这路⾛的更好、更远?例如,2014年4⽉,⼤名⿍⿍的《纽约时报》发表题为《⼤数据带来的⼋个(不,是九个!)问题》(Eight (No, Nine!) Problems With Big Data)”的反思⽂章【2】,其中⽂中的第九个问题,就是所谓的“⼤数据的炒作(we almost forgot one last problem: the hype)”。同样为重量级的英国报刊《财经时报》(Financial Times,FT)也刊发了类似反思式的⽂章“⼤数据:我们正在犯⼤错误吗?(Big data: are w
e making a big mistake?)”【3】
在⼤数据热炒之中,⼤数据的价值是否被夸⼤了?是否存在⼈造的“⼼灵鸡汤”?⼤数据技术便利带来的“收之桑榆”,是否也存在⾃⼰的副作⽤——“失之东隅”——个⼈的隐私何以得到保障?⼤数据热炒的“繁华过尽”,数据背后的巨⼤价值是否还能“温润依旧”?在众声喧哗之中,我们需要冷静审慎地思考上述问题。
太多的“唐僧式”的说教,会让很多⼈感到⽆趣。下⽂分享了10个从“天南地北”收集⽽来的⼩故事(或称段⼦),从这些⼩故事中,可对热炒的⼤数据反思⼀下,这或许能让读者更加客观地看待⼤数据。有些⼩故事与结论之间的对应关系,或许不是那么妥帖,诸位别太较真,读⼀读、乐⼀乐、想⼀想就好!
故事01:⼤数据都是骗⼈的啊——⼤数据预测得准吗?
从前,有⼀头不在风⼝长⼤的猪。⾃打出⽣以来,就在猪圈这个世外桃源⾥美满地⽣活着。每天都有⼈时不时地扔进来⼀些好吃的东西,⼩猪觉得⽇⼦惬意极了!⾼兴任性时,可在猪圈泥堆⾥打滚耍泼。忧伤时,可趴在猪圈的护栏上,看⼣阳西下,春去秋来,岁⽉不争。“猪”⽣如此,夫复何求?根据过往数百天的⼤数据分析,⼩猪预测,未来的⽇⼦会⼀直这样“波澜不惊”地过下去,直到它从⼩猪长成肥猪……在春节前的⼀个下午,⼀次⾎腥的杀戮改变了猪的信念:⼤数据都是骗⼈的啊……惨叫
嘎然⽽⽌。
图2 ⼤数据预测:都是骗⼈的
这则“⼈造寓⾔”是由《MacTalk·⼈⽣元编程》⼀书作者池建强先⽣“杜撰”⽽成的【4】。池先⽣估计是想⽤这个搞笑的⼩寓⾔“⿊”⼀把⼤数据。
我们知道,针对⼤数据分析,⽆⾮有两个⽅⾯的作⽤:(1)⾯向过去,发现潜藏在数据表⾯之下的历史规律或模式,称之为描述性分析(Deive Analysis);(2)⾯向未来,对未来趋势进⾏预测,称之为预测性分析(Predictive Analysis)。把⼤数据分析的范围从“已知”拓展到了“未知”,从“过去” ⾛向 “将来”,这是⼤数据真正的⽣命⼒和“灵魂” 所在。
那头“悲催”的猪,之所以发出“⼤数据都是骗⼈的啊”呐喊,是因为它的得出了⼀个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张⼝”的猪⼀般的⽣活。但是没想到,会发⽣“⿊天鹅事件”——春节的杀猪事件。
⿊天鹅事件(Black Swan Event) 通常是指,难以预测的但影响甚⼤的事件,⼀旦发⽣,便会引起整个局⾯连锁负⾯反应甚⾄颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的畅销书《⿊天鹅》,来获得对“⿊天鹅事件”更多的理解。
其实,我们不妨从另外⼀个⾓度来分析⼀下,这个搞笑的⼩寓⾔在“⿊”⼤数据时,也有失败的地⽅。通过阅读知道,舍恩伯格教授在其著作《⼤数据时代》的第⼀个核⼼观点就是:⼤数据即全数据(即n=All,这⾥n为数据的⼤⼩),其旨在收集和分析与某事物相关的“全部”数据,⽽⾮仅分析“部分”数据。
那头⼩猪,仅仅着眼于分析它“从⼩到肥”成长数据——局部⼩数据,⽽忽略了“从肥到没”的历史数据。数据不全,结论⾃
那头⼩猪,仅仅着眼于分析它“从⼩到肥”成长数据——局部⼩数据,⽽忽略了“从肥到没”的历史数据。数据不全,结论⾃然会偏,预测就会不准。
要不怎么会有这样的规律总结呢:“⼈怕出名,猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”⾎泪史,天天都上演的还少吗?上⾯的⼩寓⾔,其实是告诉我们:数据不全,不仅坑爹,还坑命啊!
那么,问题来了,⼤数据等于全数据(即n=All),能轻易做到吗?
故事02:颠簸的街道——对不起,“n=All”只是⼀个幻觉
波⼠顿市政府推荐⾃⼰的市民,使⽤⼀款智能⼿机应⽤——“颠簸的街道(Street Bump,⽹站访问链接:
/)”。这个应⽤程序,可利⽤智能⼿机中内置的加速度传感器,来检查出街道上的坑洼之处——在路⾯平稳的地⽅,传感器加速度值⼩,⽽在坑坑洼洼的地⽅,传感器加速度值就⼤。热⼼的波⼠顿市民们,只要下载并使⽤这个应⽤程序后,开着车、带着⼿机,他们就是⼀名义务的、兼职的市政⼯⼈,这样就可以轻易做到“全民皆市政”。市政厅全职的⼯作⼈员就⽆需亲⾃巡查道路,⽽是打开电脑,就能⼀⽬了然的看到哪些道路损坏严重,哪⾥需要维修,如图3所⽰。
波⼠顿市政府也因此骄傲地宣布,“⼤数据,为这座城市提供了实时的信息,它帮助我们解决问题,并提供了长期的投资计划”。著名期刊《连线》(Wired)也毫不吝啬它的溢美之词【5】:这是众包(Crowdsourcing)改善政府功能的典范之作。
众包是《连线》杂志记者Jeff Howe于2006年发明的⼀个专业术语,⽤来描述⼀种新的商业模式。它以⾃由⾃愿的形式外包给⾮特定的⼤众⽹络的做法。众包利⽤众多志愿员⼯的创意和能⼒——这些志愿员⼯具备完成任务的技能,愿意利⽤业余时间⼯作,满⾜于对其服务收取⼩额报酬,或者暂时并⽆报酬,仅仅满⾜于未来获得更多报酬的前景。
然⽽,从⼀开始,“颠簸的街道”的产品设计就是有偏的(bias),因为使⽤这款App的对象,“不经意间”要满⾜3个条件:(1)年龄结构趋近年轻,因为中⽼年⼈爱玩智能⼿机的相对较少;(2)使⽤App的⼈,还得有⼀部车。虽然有辆车在美国不算事,但毕竟不是每个⼈都有;(3)有钱,还得有闲。
前⾯两个条件这还不够,使⽤者还得有“闲⼼”,想着开车时打开“颠簸的街道”这个App。想象⼀下,很多年轻⼈的智能⼿机安装的应⽤程序数量可能两位数以上,除了较为常⽤的社交软件如Facebook或Twitter(中国⽤户⽤得较多的是微博、等)记得开机运⾏外,还有什么公益软
件“重要地”⼀开车就记得打开?
“颠簸的街道”的理念在于,它可以提供 “n=All(所有)”个坑洼地点信息,但这⾥的“n=All(所有)”也仅仅是满⾜上述3个条件的⽤户记录数据,⽽⾮“所有坑洼点”的数据,上述3个条件,每个条件其实都过滤了⼀批样本,“n=All”注定是不成⽴的。在⼀些贫民窟,可能因为使⽤⼿机的、开车的、有闲⼼的App⽤户偏少,即使有些路⾯有较多坑洼点,也未必能检测出来。
《⼤数据时代》的作者舍恩伯格教授常⽤“n=All”,来定义⼤数据集合。如果真能这样,那么就⽆需采样了,也不再有采样偏差的问题,因为采样已经包含了所有数据。
畅销书《你的数字感:⾛出⼤数据分析与解读的误区》(Numbersense: How to Use Big Data to Your Advantage)的作者、美国纽约⼤学统计学教授Kaiser Fung,就毫不客⽓地提醒⼈们,不要简单地假定⾃⼰掌握了所有有关的数据:“N=All(所有)”常常仅仅是对数据的⼀种假设,⽽不是现实。
微软-纽约⾸席研究员Kate Crawford也指出,现实数据是含有系统偏差的,通常需要⼈们仔细考量,
才有可能到并纠正这些系统偏差。⼤数据,看起来包罗万象,但“n=All”往往不过是⼀个颇有诱惑⼒的假象⽽已。
“n=All”,梦想很丰满,但现实很⾻感!
但即使具备全数据,就能轻易到隐藏于数据背后的有价值信息吗?请接着看下⾯的故事。
故事03:醉汉路灯下钥匙——⼤数据的研究⽅法可笑吗?
⼀天晚上,⼀个醉汉在路灯下不停地转来转去,警察就问他在什么。醉汉说,我的钥匙丢了。于是,警察帮他⼀起,结果路灯周围了⼏遍都没到。于是警察就问,你确信你的钥匙是丢到这⼉吗?醉汉说,不确信啊,我压根就不知道我的钥匙丢到哪⼉。警察怒从⼼中来,问,那你到这⾥来什么?醉汉振振有辞:因为只有这⾥有光线啊!
这个故事很简单,看完这个故事,有⼈可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是,“乌鸦笑猪⿊,⾃⼰不觉得”,这个故事也揭⽰了⼀个事实:在⾯临复杂问题时,我们的思维⽅式也常同这个醉汉所差⽆⼏,同样也是先在⾃⼰熟悉的范围和领域内寻答案,哪怕这个答案和⾃⼰的领域“相隔万⾥”!
还有⼈甚⾄认为,醉汉钥匙的⾏为,恰恰就是科学研究所遵循的哲学观。前⼈的研究成果,恰是是后⼈研究的基⽯,也即这则故事中的“路灯”。到路灯下钥匙,虽看来有些荒唐,但也是“⽆奈之下”的
明智之举。
数据那么⼤,价值密度那么低,你也可以去分析,但从何分析起?⾸先想到的⽅法和⼯具,难道不是当下你最熟悉的?⽽你最熟悉的,就能确保它就是最好的吗?
沃顿商学院著名教授、纽约时报最佳畅销书作者乔纳伯杰(Jonah Berger)从另外⼀个⾓度,解读这个故事【6】:在这⾥,浩瀚的⿊夜就是如同全数据,“钥匙”就好⽐是⼤数据分析中我们要到的价值⽬标,他认为,“路灯”就好⽐我们要达到这个⽬标的测量“标尺”,如果这个标尺的导向有问题,顺着这个标尺导引,想要到⼼仪的“钥匙”,是⾮常困难的!在我们痴迷于某项⾃⼰熟悉的特定测量标尺之前,⼀定要提前审视⼀下,这个测量标尺是否适合帮助我们到那把“钥匙”,如果不能,赶快换⼀盏“街灯”吧!
如果在⿊暗中丢失的钥匙,是⼤数据中的价值,那这个价值也太稀疏了吧。下⾯的故事,让我们聊聊⼤数据的价值。
故事04:园中有⾦不在⾦——⼤数据的价值
⼈们在描述⼤数据时,通常表明其具备4个V特征,即4个以V为⾸字母的英⽂描述:Volume(体量⼤)、Variety(模态多)、Velocity(速度快)及Value(价值⼤)。前三个V,本质上,是为第四个V服务的。试想⼀下,如果⼤数据⾥没有我们希望得到的价值,我们为何还⾟⾟苦苦这么折腾前3个V?
英特尔中国研究院院长吴⽢沙先⽣说,“鉴于⼤数据信息密度低,⼤数据是贫矿,投⼊产出⽐不见得好。”《纽约时报》著名科技记者Steve Lohr,在其采访报道“⼤数据时代(The Age of Big Data)”中表明【7】,⼤数据价值挖掘的风险还在于,会有很多的“误报”发现,⽤斯坦福⼤学统计学教授Trevor Hastie的话来说,就是“在数据的⼤⼲草垛中,发现有意义的“针”,其困难在于“很多⼲草看起来也像针(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”
针对⼤数据的价值,李国杰院⼠借助中国传统的寓⾔故事《园中有⾦》,从另外⼀个⾓度,说明⼤数据的价值,寓⾔故事是这样的【8】:
有⽗⼦⼆⼈,居⼭村,营果园。⽗病后,⼦不勤耕作,园渐荒芜。⼀⽇,⽗病危,谓⼦⽈:园中有⾦。⼦翻地寻⾦,⽆所得,甚怅然。是年秋,园中葡萄、苹果之属皆⼤丰收。⼦始悟⽗⾔之理。
⼈们总是期望,能从⼤数据中挖掘出意想不到的“⼤价值”。可李国杰院⼠认为【8】,实际上,⼤数据的价值,主要体现在它的驱动效应上,⼤数据对经济的贡献,并不完全反映在⼤数据公司的直接收⼊上,应考虑对其他⾏业效率和质量提⾼的贡献。
⼤数据是典型的通⽤技术,理解通⽤技术的价值,要懂得采⽤“蜜蜂模型”:蜜蜂的最⼤效益,并⾮是⾃⼰酿造的蜂蜜,⽽是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果,没有蜜蜂的⼀份功劳?
回到前⽂的⼩故事,⼉⼦翻地的价值,不仅在于翻到园中的⾦⼦,更是在于翻地之后,促进了秋天果园的丰收。在第03个⼩故事中,醉汉⿊暗中寻的钥匙,亦⾮最终的价值,通过钥匙打开的门才是。
对于⼤数据研究⽽⾔,⼀旦数据收集、存储、分析、传输等能⼒提⾼了,即使没有发现什么普适的规律或令⼈完全想不到的新知识,也极⼤地推动了诸如计算机软硬件、数据分析等⾏业的发展,⼤数据的价值也已逐步体现。
李国杰院⼠认为,我们不必天天期盼奇迹出现,多做⼀些“朴实⽆华”的事,实际的进步就会体现在扎扎实实的努⼒之中。⼀些媒体总喜欢宣传⼀些抓⼈眼球的⼤数据成功案例。但从事⼤数据⾏业的⼈⼠,应保持清醒的头脑:⽆华是常态,精彩是⽆华的质变。
如果把“⼤数据”⽐作农夫⽗⼦院后的那⽚⼟地,那么⼟地的⾯积越⼤,会不会能挖掘出的“⾦⼦”就越多呢?答案还真不是,下⾯的故事我们说说⼤数据的⼤⼩之争。
故事05:盖洛普抽样的成功——⼤⼩之争,“⼤”数据⼀定胜过⼩抽样吗?
1 936年,民主党⼈艾尔弗雷德兰登(Alfred Landon)与时任总统富兰克林·罗斯福(Franklin Roosevelt)竞选下届
总统。《⽂学⽂摘》(The Literary Digest)这家颇有声望的杂志承担了选情预测的任务。之所以说它
“颇有声望”,是因为《⽂学⽂摘》曾在1920年、1924年、1928年、1932年连续4届美国总统⼤选中,成功地预测总统宝座的归属。1936年,《⽂学⽂摘》再次雄赳赳、⽓昂昂地照办⽼办法——民意调查,不同于前⼏次的调查,这次调查把范围拓展得更⼴。当时⼤家都相信,数据集合越⼤,预测结果越准确。《⽂学⽂摘》计划寄出1000万份调查问卷,覆盖当时四分之⼀的选民。最终该杂志在两个多⽉内收到了惊⼈的240万份回执,在统计完成以后,《⽂学⽂摘》宣布,艾尔弗雷德兰登将会以55⽐41的优势,击败富兰克林·罗斯福赢得⼤选,另外4%的选民则会零散地投给第三候选⼈。然⽽,真实的选举结果与《⽂学⽂摘》的预测⼤相径庭:罗斯福以61⽐37的压倒性优势获胜。让《⽂学⽂摘》脸上挂不住的是,新民意调查的开创者乔治·盖洛普(George Gallup),仅仅通过⼀场规模⼩得多的问卷——⼀个3000⼈的问卷调查,得出了准确得多的预测结果:罗斯福将稳操胜券。盖洛普的3000⼈“⼩”抽样,居然挑翻了《⽂学⽂摘》240万的“⼤”调查,实在让专家学者和社会⼤众跌破眼镜。
显然,盖洛普有他独到的办法,⽽从数据体积⼤⼩的⾓度来看,“⼤”并不能决定⼀切。民意调查是基于对投票⼈的⼤范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。
在过去的200多年⾥,统计学家们总结出了在认知数据的过程中存在的种种陷阱(如样本偏差和样本误差)。如今数据的规模更⼤了,采集的成本也更低了,“⼤数据”中依然存在⼤量的“⼩数据”问题,⼤数据采集同样会犯⼩数据采集⼀样的统计偏差【3】。我们不能掩⽿盗铃,假装这些陷阱都已经被填平了,事实上,它们还都在,甚⾄问题更加突出。
盖洛普成功的法宝在于,科学地抽样,保证抽样的随机性,他没有盲⽬的扩⼤调查⾯积,⽽是根据选民的分别特征,根据职业、年龄、肤⾊等在3000⼈的⽐重,再确定电话访问、邮件访问和街头调查等各种⽅式所在⽐例。由于样本抽样得当,就可以做到“以⼩见⼤”、“⼀叶知秋”。
《⽂学⽂摘》的失败在于,取样存在严重偏差,它的调查对象主要锁定为它⾃⼰的订户。虽然《⽂学⽂摘》的问卷调查数量不少,但它的订户多集中在中上阶层,样本从⼀开始就是有偏差的(sample bias),因此,推断的结果不准,就不⾜为奇了。⽽且民主党⼈艾尔弗雷德兰登的⽀持者,似乎更乐于寄回问卷结果,这使得调查的错误更进了⼀步。这两种偏差的结合,注定了《读者⽂摘》调查的失败。
我们可以类⽐⼀下《⽂学⽂摘》的调查模式,试想⼀样,如果在中国春运来临时,在⽕车上调查,问乘客是不是买到票了,即使你调查1000万⼈,这可是⼤数据啊,结论毫⽆意外地是都买到了,但这个结果⽆论如何都是不科学的,因为样本的选取是有偏的。
当然,采样也是有缺点的,如果采样没有满⾜随机性,即使百分之⼏的偏差,就可能丢失“⿊天鹅事件”的信号,因此在全数据集存在的前提下,全数据当然是⾸选(但从第02故事中,我们可以看到,全数据通常是⽆法得到的)。对针对数据分析的价值,英特尔中国研究院院长吴⽢沙先⽣给出了⼀个排序:全数据>好采样数据>不均匀的⼤量数据。
⼤数据分析技术运⽤得当,能极⼤地提升⼈们对事物的洞察⼒(insight),但技术和⼈谁在决策(decision-making)中起更⼤作⽤?在下⾯的“点球成⾦”⼩故事,我们聊聊这个话题。
故事06:点球成⾦——数据流PK球探,谁更重要?
《点球成⾦》(Moneyball)⼜是⼀例数据分析的经典故事:
长期以来,美国职业棒球队的教练们依赖惯例规则是,依据球员的“击球率(Batting Average, AVG)”(其值等于安打数/打数),来挑选⼼仪的球员。⽽奥克兰“运动家球队”的总经理⽐利⽐恩(Billy Beane)却另辟新径,采⽤上垒率指标(On-Base Percentage, OBP)来挑选球员,OBP代表⼀个球员能够上垒⽽不是出局的能⼒。采⽤上垒率来选拔⼈才,并⾮毫⽆根据。通过精细的数学模型分析,⽐利⽐恩发现,⾼“上垒率”与⽐赛的胜负存在某种关联
大数据要学什么
(corelation),据此他提出了⾃⼰的独到见解,即⼀个球员怎样上垒并不重要,不管他是地滚球还是三跑垒,只要结果是上垒就够了。在⼴泛的批评和质疑声中,⽐恩通过⾃⼰的数据分析,创⽴了“赛伯计量学”(Sabermerrics)。
据此理论,⽐恩依据“⾼上垒率”选取了⾃⼰所需的球员,这些球员的⾝价远不如其他知名球员,但⽐利⽐恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军,并取得了20场连胜的战绩。
这个故事讲得是数量化分析和预测对棒球运动的贡献,吴⽢沙先⽣认为,它在⼤数据背景下出现了传播的误区:
第⼀,它频繁出现在诸如舍恩伯格《⼤数据时代》之类的图书中,其实这个案例并⾮⼤数据案例,⽽是早已存在的数据思维和⽅法。在“点球成⾦”案例中的数据,套⽤⼤数据的4V特征,基本上,⽆⼀符合。
第⼆,《点球成⾦》⽆论是⼩说,还是拍出来的同名电影,都刻意或⽆意忽略了球探的作⽤。从读者/观众的⾓度来看,
第⼆,《点球成⾦》⽆论是⼩说,还是拍出来的同名电影,都刻意或⽆意忽略了球探的作⽤。从读者/观众的⾓度来看,奥克兰“运动家球队”的总经理⽐利·⽐恩完全运⽤了数据量化分析取代了球探。⽽事实上,在运⽤这些数据量化⼯具的同时,⽐恩也增加了球探的费⽤,“军功章⾥”有数据分析的⼀半,也有球探的⼀半。
⽬前的⼤数据时代,就有这么两个流派,⼀派是技术主导派,他们提出“万物皆数”,要么数字化,要么死亡(孙正义在对⽇本企业界的演讲上所⾔),他们认为技术在决策中占有举⾜轻重地作⽤。另⼀派是技术为辅派,他们认为,技术仅仅是为⼈服务的,属于为⼈所⽤的众多⼯具的⼀种,不可夸⼤其作⽤。
针对《点球成⾦》这个案例,⽐利⽐恩的拥趸者就属于“数据流党”,⽽更强调球探作⽤的则归属于“球探党”。
球探党Bill Shanks在其所著的《球探的荣耀:论打造王者之师的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ballteam)中【9】,对数据流党的分析做出了强有⼒地回应。他认为,球探对运动员定性指标(如竞争性、抗压⼒、意志⼒,勤奋程度等)的衡量,是少数结构化数据(如上垒率等)指标⽆法量化刻画的。
和《点球成⾦》观点针锋相对的是,Bill Shanks更认可球探的作⽤,他把球探的作⽤命名为“勇⼠”哲学。对于勇⼠来说,数据分析只是众多“⼑棍棒”兵刃中的⼀种,⽆需奉之如圭臬,真正能“攻城略地”的还是需要勇⼠。⽐如说,运动家棒球队虽然在数据分析的指导下,获得了震惊业界的好成绩,然⽽他们并没有取得季后赛的胜利,也没有夺取世界冠军,这说明,数据分析虽重要,但⼈的作⽤更重要!
从第01故事的分析中,我们知道,⼤数据分析的第⼀层作⽤就是,⾯向过去,发现潜藏在数据表⾯之下的历史规律或模式,也就是说达到描述性分析。⽽为了让读者相信数据分析的能⼒,灌输⼀些“⼼灵鸡汤(或称洗脑)”,是少不了的,哪怕它是假的!
故事07:啤酒和尿布:经典故事是伪造的,你知道吗?
这是⼀个关于零售帝国沃尔玛的故事。在⼀次例⾏的数据分析之后,研究⼈员突然发现:跟尿布⼀起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马⽜不相及,但这是对历史数据进⾏挖掘的结果,反映的是数据层⾯的规律。这种关系令⼈费解,但经过跟踪调查,研究⼈员发现,⼀些年轻的爸爸常到超市去购买婴⼉尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳⾃⼰。随后,沃尔玛对啤酒和尿布进⾏了捆绑销售,不出意料,销售量双双增加。
上⾯这个案例,出⾃于涂⼦沛先⽣的所著的⼤数据畅销书《数据之巅》,在这个案例中,要情节有情节,要数据,有数据,誓⾔旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:
1.
案例是编造的
这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《⼤数据》类图书的常客,事实上,它更是⽆数次流连
于“数据挖掘”之类的书籍中,特别是⽤来解释“关联规则(Association Rule)”的概念,更是“居家旅⾏,必备之良药(周星驰语)”。当前,基本上所有讲⼤数据应⽤,都会捎带讲上这个经典案例,要求⼤家多研究“相关性”,少研究因果关系!但实在扫兴的是,这个案例仅是⼀碗数据分析的“⼼灵鸡汤”——听起来很爽,但信不得!
实践是检验真理的唯⼀标准。如果这个故事是真的,按理说,应该给超级市场以⽆限启发才对,可实际上,不管是中国,还是在美国,在超市⾥⾯观察⼀下,就会发现,根本没有类似的物品摆放,相近的都很少。
故事性强,事出有因。据吴⽢沙先⽣透露,它是Teradata公司⼀位经理编出来的“故事”,⽬的是让数据分析看起来更有⼒,更有趣,⽽在历史上从没有发⽣过,感兴趣的读者可以⾃⼰参阅⽂献。但公平地讲,这个故事对数据挖掘的普及意义重⼤,仅从教育意义上看,仍不失为⼀个好故事。
2.相关性并⾮什么⼤事
即便真的有这个案例,也不说明数据分析出来的“相关性”,有什么特别的神奇之处。舍恩伯格教授的《⼤数据时代》核⼼观点之⼀就是:趾⾼⽓扬的因果关系光芒不再,卑微的相关关系将被“翻⾝做主⼈”,知道“是什么”就够了,没必要知道“为什么”。但需要我们更为深⼊了解的事实是:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。