首页 > 编程知识 正文

k均值聚类算法原理,复杂网络聚类系数

时间:2023-05-06 16:42:29 阅读:22020 作者:680

网络研究的基础概念

整体净密度

整理净密度=当前关系总数/理论最大相关系数,整体净密度越大,对个体的影响越大

个体网络密度计算

网络- ego -网络- egonetbasicmeasures

整体网络密度的计算

网络关注度

网络成员之间的距离

最小路径(默认)

成本制

强度最大路径

长行程

最可能发生的路径

亲本性

根据距离矩阵,计算各点之间的相邻距离Network-Cohesion-Distance

全网结构研究

属性变量和网络变量

中心研究

二者关系的研究

三方关系研究

小群体量化研究——分块模型分析

凝聚子群分析

多行为者之间的对等分析

核心-半边缘-边缘分析

网络数据的统计估计--指数随机图模型研究

喜欢网络论的研究

网络进化研究

一.中心研究

中心度-个体、中心势-组

度数中心性

点的度数中心度

绝对度数中心度

忽视间接联系的点是局部的中心度

相对于度数中心度

点的绝对中心度/图中最大可能绝对中心度

在规模不同的图中,点的局部中心度无法比较。

图以度数为中心的趋势

网络中点的度数中心度差异越大,图的度数中心的势头越大。

中心势能计算. png

中间中心性

点的中间中心度

中间中心度的定义

如果一个点位于许多其他点对的快捷方式中,则中间中心度会变高

中间中心度的测量

A-B通过点y路径数/A-B存在的路径的总数

图的中心气势

图的中心势头. png

线的中心度

一条线在快捷方式中出现的次数,测定一条线对信息的控制程度

网络中心框架-边缘

相对于中心度的水平嵌套分析

网络中心自由创建

分级分析. png

接近中心性

一个点离其他点越近,传递信息就越容易

接近点的中心

中心度测量.接近png

接近图中心的势头

多中心度的比较与计算

网络中心多点测量

三个中心度的关系. png

度数中心度衡量与其他点交往的能力,中间中心度和接近中心度描述该点与网络中其他点交往的能力

二.凝聚子群研究

对凝聚子群形式化处理的四个角度:

关系互惠性

相邻吗

子组成员之间的接近性或可达性

是否可以到达,不要求邻接

子组中成员之间关系的频率

子组内部成员之间的关系密度相当于内外成员之间的关系密度

建立以互利为基础的凝聚子群

派系、内部成员之间的互惠,以及不能加入其他方面

派系的定义

无向网络中

至少包含三个点的最大完备子图

有向网络中

网络-子组- cliques

在多值关系网络中

C级派系

在UCINET中,可以根据不同的阈值c对矩阵进行二值化处理,得到二值化处理后对这些矩阵进行派系分析

对派系概念的评价

定义太严格了

派系成员之间没有任何分化

集体中可能存在许多重复的派系

基于可达性和直径的凝聚子群

正派系

无向网络中

在子图中,任意两点的快捷距离不超过n

有向网络中

半长笛:从I到j,由各自不同的点和线构成的系列。 路线考虑线的方向,不考虑半航线

四类正派系的关联性. png

在多值关系网络中

对n-派系概念的评价

p>当n大于2时,很难给出社会学解释

n-派系的直径可能大于n

n-派系可能是不关联图

建立在点度数基础上的凝聚子群

k-丛

无向网络中

每个点都至少与除了k个点之外的其他点直接相连

多值关系网络中

c层次的k丛.png

k-核

一个子图的全部点都与子图中k个其他点相邻

Network->Subgroups/Regions->K-core

建立在“子群内外关系”基础上的凝聚子群

成分

一个图可以分为几个部分,每个部分的内部成员之间存在关联,而各个部分之间完全没有关联。有向网络中分为弱成分和强成分

Network->Regions->Components->Simple Graphs/Valued Graphs

一个图分为一些相互独立的子图,称为块

LS集合(理论分析意义不大)

LS集合.png

LS集合所有子集合的内部关系都多于外部关系,因此相对稳健,不包含分裂群体

Lambda集合

Lambda集合.png

Network->Subgroups->Components->Lambda Sets但UCINET分析的主要是“对称数据”,会把有向数据“对称化”处理

社会圈

派系、丛重叠

凝聚子群中的分派指数

单类网络中的分派指数

派别内部的关系,派别之间的关系对组织之间的危机处理很关键

E-I index.png该值越接近1,则说明关系越趋向于发生在群体之外,意味着派系林立的程度越小;该值越接近-1,则说明关系越趋向于发生在群体之内。

Network->Cohesion->E-I index

多类网络中的分派指数

分派指数.png

实例.png

凝聚子群分析的步骤示例

如果数据是二值的,直接进行第二步,如果是多值的:

一是利用多维量表Tools->Scaling/Decomposition->Metric或层次聚类Tools->Cluster Analyze进行分析;

二是二值化处理Transform->Dichotomize要注意是相似性还是相异性数据

分析成分

成分分析.png

Transform->Symmetrizing

派系分析

分析派系重叠的模式

派系重叠.png

找出所有的k-丛

k-丛分析.png

分派分析

示例

示例.png

三、社会网络的关联性

关联性的含义

如果一个集体的成员之间的社会关系把该集体团结在一起,我们就说该集体就有关联性。

行动者之间必须是关联的,即任何两点之间都至少存在一条途径。两个点之间的途径越多,关联度越大。

但关系的密度往往不是决定性因素,如果密度只是通过一个核心点的努力而增加的,那么密度大的网络将对核心点产生很大的依赖,因而是不“稳健”(robust)的。另外关联度也随着网络中独立途径数目的增加而增加,所谓独立途径,指的是除了起点和终点一样外,其他点都不同的途径。

关联度.png

关联性的测量

关联度

网络的关联度

对于一个有向图来说,如果其中的任何点之间都可以建立联系,则称这样的图为关联图。关联图也叫做成分。

关联度测量公式.png

其中V是该网络中不可达的点对数目,N是网络的规模

如何计算其关联度

Transform->Dichotomize对称化处理

Network->Cohesion->Distance根据无向矩阵得到可达距离矩阵V=可达矩阵对角线上方0的总数

Network->Cohesion->Reachability得到可达矩阵(只表明两点间是否可达)

- 网络中某点的关联度

对于一个网络中的某个点来说,如果去掉与之相连的一些点,那么该点可能达不到其他点,也就没有关联度。

Network->Cohesion->Point Connectivity计算出去掉多少点能使该点不可达到其他点

如果只去掉一个关系,某组织就失去了与其他成员之间的联系,信息将不能传递,那么该组织既是信息的发出者,又是信息的接受者。可以用来研究行动者之间的独立性或者脆弱性。

图的等级度

等级度.png

等级度的计算.png

图的效率

图的效率指的是在已知图中所包含的成分数确定的情况下,图在多大程度上存在多余的线。

图的效率计算公式.png

对于一般的无向图来说,计算其效率的步骤如下:

Network->Regions->Components区分出图中的全部成分

Tools->Univariate Stats,选择需要分析的数据,计算出该矩阵的一些统计指标,包括包含的线数,计算多余线的条数V=SUM(G)-(N-1),计算最大可能的多余线的条数Max(V)=N(N-1)/2-(N-1)

把每个成分的V和Max(V)分别汇总

根据公式计算图的效率

实际上该值必然等于图中各个成分密度的平均值

关联性与小世界

小世界的含义

1.整个网络巨大,现实世界中包含的人数达到十亿数量级

2.网络是稀疏的

3.网络是去中心化的,即不存在核心点

4.整个网络却是高度聚类的,大多数朋友圈都有重叠。

小世界的测量指标

特征途径程度,连接任意两个点之间最短途径的平均长度。

聚类系数,关于局部结构网络的指标。

小世界是拥有一个相对较小L和相对较大C的图。

小世界的测量例示

聚类系数的计算

Transform->Symmetrize->Maximum对称化处理

Network->Cohesion->Clustering Coefficient

该程序会给出根据局部密度计算出来的聚类系数overall graph clustering coefficient

根据传递性计算出来的聚类系数weighted all graph clustering coefficient

- 途径长度均值的计算

Transform->Symmetrize->Maximum对称化处理

Network->Cohesion->Distance计算距离,得到距离矩阵

Tools->Statistics->Univariate->Matrix,对得到的距离矩阵进行计算,即可算出C值

四、块模型:构建与解释

块模型

块模型的定义

块模型.png

块模型的构建

第一步,分区,把行动者分到各个位置,常见的是CONCOR以及层次聚类方法。

第二步,根据一些标准确定各个块的取值,即是1-块还是0-块。不同性质的关系采取的标准不同

完全拟合

0-块标准

1-块标准

α-密度指标

最大值标准(适用于多值数据)

平均值标准(适用于多值数据)

对结果的解释

个体层次

位置层次

整体层次

1.有两个位置的像矩阵

有两个位置的像矩阵.png

CONCOR方法

CONCOR.png

块模型的应用举例

如果用一个整体网来表征村民之间的相互支持行为,如“帮工关系”。首先,我们可以计算该整体网络在“帮工”上存在多少个子群(位置)Network->Roles & Positions->Structural->Concor,然后给出各位置之间的密度表和像矩阵。

image.png

image.png

image.png

五、结构洞与中间人

局部桥的含义与测量

桥:如果去掉两点之间的该关系,整个网络将分为两个独立的子网络。

局部桥:如果n大于2并且是连接两点的最短途径的长度(除了已存的关系之外),该现存关系就是度数为n的局部桥

结构洞

结构洞是两个行动者之间的非冗余的联系

结构洞.png

Network->Ego Network->Structural Holes

主要看结果中的限制度Constraint,越小表示在图中越重要

中间人

中间人

Network->Ego Network->Brokerage roles

其他个体网指标的计算

Network->Ego Networks->Egonet basic measures包括个体网的规模,关系总数,最大可能的点对数,密度,平均距离,直径,弱成分的数量,在2-步内可达的点数与个体网规模之比,可达的效率,中间人即个体位于两个点之间捷径的个数

Network->Ego Network->Egonet Homophily计算出个体网的核心点就某项特定属性而言与其他点的各种相似性测度

Network->Ego Network->Egonet composition提供核心点的网络成员就某种变量方面值得描述统计量

Network->Ego Network->Honest broker index对每一个点计算该点在网络中成为中间人的次数,以及该点所调节的点对数等指标

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。