文本数据挖掘与python应用电子书,python文本挖掘案例

原标题： Python小说文本挖掘正则表达式分析案例

原文链接： http://tecdat.cn/p=5673

数据集

淡紫菜的宣传22是我最喜欢的小说。最近读了，喜欢整本书里语言的创造性使用和荒谬的人物交流。对于我的可视化类，选择文本作为最终项目“数据集”是一个简单的选择。该文约有175，000个词，分为42章。我在网上找到了这本书的原始文本版本，开始工作。

我使用正则表达式和简单字符串匹配的组合在Python上分析文本。

我shiny用r交互可视化这些数据集。

地中海旅行

这个可视化映射了本书整体中提到的地中海周边位置的提到。

人物形象

这张图基本上表示了书中不同文字的时间序列。

将数据绘制为标准散点图。章是x轴，文字是离散y轴，竖条是标记。

人物一起出现

用于构建此可视化的数据与以前使用的数据完全相同，但是要将这些模式转换为可表示的格式，需要大量的转换。

群集向此图中添加了另一个维。将分层聚类方案应用于整本书，试图在角色中找到社区。再次，通过使用章节(1表示当前，0表示不存在)和42维真象距离，使用全链路AGNES算法对字符进行聚类。人工检测不同聚类方案和距离测量的树状图，这是最“水平”的，因为更频繁出现的作用占主导地位的方案最少。这是六个群集的树视图。

如果用户选择在集群中着色图形，用于共享同一集群中的字符公共位置的单元用唯一的颜色填充，而来自不同社区的指示字符公共位置的单元用灰色的阴影填充。请注意，群集是在整个文本中执行的，而不是在APP应用程序中用户扩展的章节中执行的。我觉得动态改变集群会分心。

按字母或频率排序会使群集“爆炸”到无法识别的空间，但按群集排序会将群集带入密切的社区，使观众也能看到群集之间的交互。

我肯定会对公共位置的编码和应用于每个单元的阴影映射引起争论，但是其他的聚类方法会导致找到非常不同的社区。也就是说，定性地说，我花了很多时间用自己的文本知识评估结果，发现当前的实现比我测试的其他实现更令人满意。

我发现书中的所有主角与其他大部分角色互动都很有趣。我不能期待这么多重叠。与Les Mis相比，故事之所以密集，我认为是因为收集到的章节数量的10倍的差异。

有特色的语言

此图可能是四个图中最常见的图，但可能显示了对文本的许多看法。

为了实现此可视化，可以选择层叠条形图或层叠面积图。堆区域图喜欢更好地显示单词突出的连续章节，但如果章节之间存在高度偏差，则允许三角形形状扭曲关系。回到搜狐，多看看

责任编辑：