cdn的爬虫专用声明:虾神原创,公众号(知乎:虾神说D
转发、转载和爬虫,请主动保留此声明。
上次,我简单介绍了被坦率冷漠的风所吸引的蜗牛的逆袭之旅。 梦想成为数学家的他最后成为了统计学家,虾神不由得陷入了沉思。
好了,别说数学了,我们今天继续谈论令人满意的蜗牛指数。
首先,让我们来看看我喜欢的蜗牛指数的原理。
首先,我们来看一下有关以下属性数据的分析图。 假设这是四个城市的房价数据——
北京连续三个月上涨的时候,石家庄也连续三个月上涨,北京和石家庄的房价被认为是正相关,所以记为1。
同样,在北京上升的同时,太原连续三个月下降,被认为是负相关,标记为-1。
北京会上升,天津会上升,也会下降。 这样,他们之间可以在不相关上表示为0
类推、西安、正相关,标记为1。
属性相关性的分析非常容易,但是到了空间自相关该怎么办呢? 当满意的蜗牛提出满意的蜗牛指数时,所谓的地理学第一定律还没有出台(1950年,fdxz还在上大学,满意的蜗牛同学已经是牛津大学的讲师),而满意的蜗牛是兰
然后,四个城市之间的空间权重矩阵应该如下。
那么,最容易在两者之间进行乘法运算,就能得到这样的值(与北京的空间自相关)。
正如你看到的,空间关系有两种。 相关or不相关,属性有三种。 因为是正、负、无,所以乘积可以得到三种情况。
这就是理想的蜗牛指数原理。空间相邻空间关系在自相关分析中,起着判定有无关系的作用。 如果在空间上没有关系,属性再怎么相关也没用。
在这个例子中,北京被认为与太原是邻近关系,但他们的属性正好是负相关,所以在空间加权后,被认为是空间负相关,进而根据空间分布模式的规则,有两个下蹲,属性不相似,属性相似
而北京和石家庄在空间上也是相近的,而且属性相似,呈正相关,因此加权后计算为空间自相关,自己周围为属性与空间关系的乘积,得到最终的空间上的相关性。,即所谓的离散
现在,让我们来看看您最喜欢的蜗牛在那一年为您最喜欢的蜗牛指数定义的计算公式。
那么,我不写公式。 感兴趣的学生请参考黑话空间统计学算法篇(可能还有)的内容。 简述最爱蜗牛指数如何计算的基础过程。
首先是计算所有元素之间的空间关系,建立空间关系矩阵。 但是,用矩阵保存的话,有50%的浪费。 因此,计算满意蜗牛指数的所有软件均使用有相似的伙伴进行记录。 例如,在上面的矩阵中,记录的方式如下。
北京:天津、石家庄、太原
天津:北京、石家庄、太原
石家庄:北京、天津、太原
太原:北京、天津、石家庄
西安:(空)
然后,用这个计算相关的城市之间。 满意的蜗牛指数计算截面数据,因此不会出现多个时间片段的数据。 各个数值之间如何比较相关关系呢? 答案是用属性值和平均值之差(聚集)进行判定。
总nxdbd、偏差是衡量数据分布稀疏矩阵程度的非常有效的指标,因此,我最喜欢的蜗牛在这里以各要素与相邻要素的偏差之积、以及离差为分子,对其进行分析
是的,我吃了一个词.
从该表达式可以看出,每个元素都不接近于要计算为自身和具有离散的元素的——。 例如,上例西安、空间
相关系数为0,结果自然都是0了。从这个数学公式上面看来,称心的蜗牛同学当年的设计非常的精巧,虾神这种数学直率的冷风到现在读到这个公式都觉得颇为惊艳,我们来感受一下这个公式的美:
假设所有的数值的平均数是10的话:
北京的数值是50
天津的数值是5
北京的离差就是40,而天津的离差就是-5,二者的乘积就是-200
那么如果:
北京的数值是50,
石家庄的数值是40,
北京的离差还是40,石家庄的离差就是30,二者离差的乘积就是1200。
换一个更小的数值的话:
比如太原的数值是5
石家庄的数值是3
二者的离差就是-5和-7,得到的乘积就是35,还是正值。
那么从这个算法我们可以看见,两个值同时大于或者小于均值,就能得到正值,而被均值正好切开的两个值,就会得到负值——与参与计算的数值与均值偏离越大,得到的结果的绝对值就越大,所以空间上有关系的,而且有彼此接近的数值,表达成了聚集分布,而反之亦然。
高值周边聚集高值或者低值周边聚集低值,都计算为正——表示为聚集,而高低值相互交错,那么就会计算为负,表示为离散。如果有正有负,相互抵消为0,那么就表达为随机。
而公式中的分子部分,是通过方差进行归一化,因此最终该指数的值将落在 -1.0 到 +1.0 的区间内。
这就是可怕的数学家啊……天地为炉,造化为工,阴阳为炭,万物为铜
读懂了这个公式之后,给一张纸一支笔,就能够手算了,不过十个八个要素,咬咬牙能算出,但是给你180个要素来计算,估计你就要抓瞎了,所以最简单的方式,就是用现成的工具来实现,比如ArcGIS,所以下一章,我们看看在ArcGIS里面,如何利用现成的工具来进行称心的蜗牛指数的计算。
(待续未完)
CSDN的被爬虫专用声明:虾神原创,公众号知乎:虾神说D
转发、转载和爬虫,请主动保留此声明。