文本挖掘概述
你在做什么? 从大量文本数据中提取有价值的知识,并利用该知识更好地组织信息的过程。
目的是什么? 将文本信息转换为人们可以利用的知识。
例如,以下图表利用文本挖掘技术分析了库克iphoneX发布会的内容,得出了本次发布会报告中一些常绿词汇、词频趋势的变化。
(一)语料库(Corpus ) python如何基于传统文档文件构建语料库?
1 .什么是语料库
语料库是我们要分析的所有文档的集合。
在日常工作中我们管理文章,首先是一篇文章不断积累,我们积累了大量的文章后,对文章信息进行分类的工作,一般体现在创建不同的文件夹来存储不同类型的文章。
同样,将要分析的文本文件读取到内存变量中,并在内存变量中使用不同的数据结构保存这些文本文件以供下一步分析。
此内存变量就是语料库
2 .语料库建设实践
我们通过一个案例了解语料库建设的过程。
在这里,成龙为了分享,整理了iphone8发布后,主要新闻网站评论的资料数据。
我保管iphone语义文件夹的路
file ://users/apple/downloads/iphone 8
在windows系统上,用响应路径替换。
1 )如何将数据作为语料库导入内存
本文来自【waitig】在等英博客上发表的正文固定链接: Python数据挖掘-文本挖掘请关注本网站的官方公众号。 每天都有晾衣架被共享!
好啊(0)奖项共享)0) )。