最近帮单身的红酒做了一个文献关键词信息挖掘的简单工作,利用关键词的在不同文章中的共现信息,对关键词进行相似度的比较。主要使用到了SATI这个工具,当然为了把最后所有的图弄出来,还用到了Ucinet6,NetDraw还有spss。主要参考
懵懂的鸡, 柔弱的航空. 文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,
2012(1):50-58.
这一次做的是国内校园欺凌文献关键词信息的挖掘,拿到手的数据已经是处理好的XML数据(如何从各大平台获得XML形式的数据不在本文讨论范围之内),用SATI直接打开,选择你需要的题录信息,笔者这里需要的是关键词频率,然后依次构建了三类共现矩阵:相似度,相异度和边数。关键词的个数设定为30。点击矩阵按钮等待生成然后保存Excel文件即可。
层次聚类分析的原理很简单,其实用R语言或者Python写也比较方便,不过为了使用NetDraw画图,需要Uncinet生成的network文件,这里就用Ucinet来聚类了。
Ucinet可以导入Excel文件作为矩阵,这里使用相似度矩阵
点击确定后会在输出文件夹输出Ucinet数据文件,分别是##h文件和##d文件。
用Ucinet打开对应的##h文件,然后就可以再工具菜单中选择聚类分析了。
直接使用NetDraw打开##h文件即可。
之后可以进行各种编辑。
4.使用Spss进行wxdgs尺度分析讲道理MDS之前在统计机器学习的课上接触过,但没有自主实现,这次用Spss相当于看看效果。直接用Spss打开Excel文件(相异度矩阵),然后选择wxdgs尺度分析。
将所有关键词作为构建新空间的变量(这个没有全选真的伤),选好参数后就可以输出了。
根据层次聚类图和wxdgs尺度分析图,可以将关键词大致分为有意义的类别。采用总和均值法计算类的向心度和密度值, 即聚类向心度为类内所有结点与其他类团内所有结点的边数总和的均值,聚类密度为类内所有结点之间边数总和的均值。类别分好过后,用一个Python程序读取存储边数的共现矩阵然后进行计算就可以轻松搞定了。
版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。