白话空间统计十四:高低值的聚类(上)
扛鼎天下
⽩话空间统计⼗四:⾼低值的聚类(上)
从上⼀篇讲零假设开始,⼤家就都知道⼜要进⼊各种神奇的统计学理论阶段了,但是因为吴道长的提醒,所以我尽量的不写成⽩⽪书这种官⽅味道⼗⾜的东西。怎样开网店的步骤
今天我们来讲空间⾃相关的⼀个进阶衡量⽅法:⾼/低值的聚类。
以前都说了,空间数据的关系⽆⾮就三种可能——离散、随机、聚集,如下:
那么我们拿到数据之后,⾸先确定离散还是聚集,因为随机就没啥价值。只有确定了之后,才能绝对我们怎么去对付他,是清蒸还是红烧,或者是凉拌,都要看原料的。
⾄于如何确认,我们以前也讲了莫兰指数这个东东,当然,伴随着的肯定还有P值和Z得分神马的,有兴趣的同学,请查看以前⽂章。
那么拿到数据,确定由聚集的可能之后,⼜会发⽣什么事情呢?
我们继续看下⾯的例⼦:
继续来抛硬币:
⼀次性抛出16枚编好号的硬币,结果如上图。我把结果⽤红圈给圈出来了,⼤家就很容易的看见发⽣了聚集,⽽且这次试验的结果主要是反⾯发⽣了聚集。
所以,在我们发现了数据有聚类的可能性之后,我们还可以进⼀步的分析,到底是哪⼀类数据发⽣了聚集,这种能够判定是哪⼀类值产⽣了聚类的,就叫做“⾼/低值聚类”分析。
下⾯进⼊历史科普实践,这种⽤于判定⾼/值聚类的⽅法,最早是由美国乔治敦⼤学麦克多诺商学院(McDonough School of Business)的J. Keith Ord和圣地亚哥州⽴⼤学地理系的ArthurGetis两⼈提出,所以,这个算法通常由被称为:Getis-Ord General G分析。就是下⾯的两位帅哥(我⼀直对研究算法的⼈满怀敬意):
与硬币只有两⾯不同,数据是可以划分为⾼值和低值的,如下图:
在前⾯衡量空间⾃相关的时候,⽤的参数是Moran'I(莫兰指数),那么在衡量搞低值聚类的时候,⽤的也是⼀个指数,这个指数叫做General G 指数。
General G 指数与莫兰指数⼀样,皆是⼀种推论统计,即你把数据拿到之后的下⼀个步骤。⽐如你相
亲时候,第⼀次把妹纸相⽚要到的时候,⾸先要做的⾃然就是看看是不是符合⾃⼰的审美观了,然后就是是否有PS的痕迹,通过⼩细节来想象⼀个下这个妹纸有哪些爱好性格啊之类;这种利⽤有限的数据来对整体情况的特征进⾏估计的过程,就是推论统计。
通过分析之后得到的结果,都会在零假设(以瞎猜为背景)的情况下进⾏解释。也就是说,你的计算出来的值,只是与瞎猜的结果相⽐较得出来的结论,并不代表真实的结果。
General G统计⽅法,认为零假设(瞎猜)是不存在聚类的。当你进⾏General G⽅法进⾏计算的时候,会得出⼀堆的值,如下:
苯的物理性质Z的分和P值和⽅差是啥意思就不解释了,⼤家回头去看原来的⽂章,着重解释⼀下观察General G指数和期望General指数是什么东西。
⾸先,还是要看看数据是否有意义,因为P值代表了你这份数据是不是随机的,如下图所⽰:
P值就决定了你这份数据是否具有分析价值,如果我们能够进⼊下⼀步,那么Z值就变得重要起来。与空间相关性⾥⾯的Z值不同,
在General G统计的计算中,Z值的正负符号是有意义的,如下:
看到这⾥就会有⼈跳出来了,你的观察General G指数和期望General G指数哪⾥去了?既然Z值都已经把你要⾼/低值聚类都标⽰出来了,这个两个指数还有啥⽤?
别急,继续往下看。
我们开始说了,General G⽅法,是⽤来探索⾼\值聚类的⽅法,那么这两种指数也是⽤来衡量到底是发⽣了⾼值聚类还是低值聚类的。
单独⼀个指数是没有什么意义的,既然他给了两个指数,是表⽰,让你来进⾏⽐较的。在算法上,只要Z得分是正数,那么⼀般来说观察指数就要⼤于期望指数,⽽如果Z得分是负数,那么期望指数就要⼤于观察指数,如下:
那么把两个图组合起来,就得到了如下结果:
Z得分为正——观察General G指数⼤于期望GeneralG指数——数据在⾼值区域聚类。
Z得分为负——期望General G指数⼤于观察GeneralG指数——数据在低值区域聚类。
但是,正如每个⼈⼩时候都被其他的熊长辈挑拨离间过——“你是喜欢粑粑还是⿇⿇?”往往把⼩孩弄得不知所措,⽽⽗母也会教⼩孩如何对付这些熊长辈“说‘都喜欢’”,然后皆⼤欢喜⼀样。⼀份数据如果同时在⾼值和低值区域都表现出了聚类,怎么办?
哇那么很容易出现的就是观察GeneralG指数和期望General G指数相等的情况,那么这种情况⽤官⽅的话说,就是“⾼值和低值同时聚类时,它们倾向于彼此相互抵消。”如下图:
邮寄电脑>玫瑰朵数的含义
遇上这种⾼低值全部都聚类情况,基本上就可以直接放弃使⽤这个⼯具了,改⽤空间⾃相关⼯具即可(Globe Moran' I)。所以,很明显的看出,这个⼯具主要是去寻⾼值或者低值有其中⼀⽅发⽣聚类
的时候,才能发挥出他的价值。
(待续未完)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。