首页 > 编程知识 正文

文本数据挖掘与python应用电子书,python文本挖掘案例

时间:2023-05-05 21:39:30 阅读:56256 作者:4843

原标题: Python小说文本挖掘正则表达式分析案例

原文链接: http://tecdat.cn/p=5673

数据集

淡紫菜的宣传22是我最喜欢的小说。 最近读了,喜欢整本书里语言的创造性使用和荒谬的人物交流。 对于我的可视化类,选择文本作为最终项目“数据集”是一个简单的选择。 该文约有175,000个词,分为42章。 我在网上找到了这本书的原始文本版本,开始工作。

我使用正则表达式和简单字符串匹配的组合在Python上分析文本。

我shiny用r交互可视化这些数据集。

地中海旅行

这个可视化映射了本书整体中提到的地中海周边位置的提到。

人物形象

这张图基本上表示了书中不同文字的时间序列。

将数据绘制为标准散点图。 章是x轴,文字是离散y轴,竖条是标记。

人物一起出现

用于构建此可视化的数据与以前使用的数据完全相同,但是要将这些模式转换为可表示的格式,需要大量的转换。

群集向此图中添加了另一个维。 将分层聚类方案应用于整本书,试图在角色中找到社区。 再次,通过使用章节(1表示当前,0表示不存在)和42维真象距离,使用全链路AGNES算法对字符进行聚类。 人工检测不同聚类方案和距离测量的树状图,这是最“水平”的,因为更频繁出现的作用占主导地位的方案最少。 这是六个群集的树视图。

如果用户选择在集群中着色图形,用于共享同一集群中的字符公共位置的单元用唯一的颜色填充,而来自不同社区的指示字符公共位置的单元用灰色的阴影填充。 请注意,群集是在整个文本中执行的,而不是在APP应用程序中用户扩展的章节中执行的。 我觉得动态改变集群会分心。

按字母或频率排序会使群集“爆炸”到无法识别的空间,但按群集排序会将群集带入密切的社区,使观众也能看到群集之间的交互。

我肯定会对公共位置的编码和应用于每个单元的阴影映射引起争论,但是其他的聚类方法会导致找到非常不同的社区。 也就是说,定性地说,我花了很多时间用自己的文本知识评估结果,发现当前的实现比我测试的其他实现更令人满意。

我发现书中的所有主角与其他大部分角色互动都很有趣。 我不能期待这么多重叠。 与Les Mis相比,故事之所以密集,我认为是因为收集到的章节数量的10倍的差异。

有特色的语言

此图可能是四个图中最常见的图,但可能显示了对文本的许多看法。

为了实现此可视化,可以选择层叠条形图或层叠面积图。 堆区域图喜欢更好地显示单词突出的连续章节,但如果章节之间存在高度偏差,则允许三角形形状扭曲关系。 回到搜狐,多看看

责任编辑:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。