话题发现和跟踪是指新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容组织到一起的技术。通过增量的文档聚类的方法,信息流被聚集到有限的话题类簇中,类内高度相似,不同的类间相似度较低,以此进行海量数据的融合。热点舆情话题是话题舆情中受关注度最大,影响也较为突出的舆情,旨在从半结构化海量Web数据中获取相应的主题并进行整合,以新的热点事件分析并了解热点话题事件的发展。热点话题分析对舆情分析具有较大的实际意义,可以及时向网络监控部门]提供网民关注焦点,辅助网络舆情分析。
随着网络舆情及预警机制研究的广泛深入和迫切性,话题发现和跟踪的研究已经成为当前的研究热点。
本文给出一个财经新闻热点发现的技术架构。
实战 涉及技术 爬虫NLP机器学习 技术架构 架构图
要点说明
1、爬虫
参考我的另外2篇文章:
【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)
【实用工具系列之爬虫】python实现快速爬取财经资讯(防 ‘反爬虫’)
2、关键词提取
(1)用命名实体识别方法识别实体
参考的另外一篇文章: NLP进化史系列之命名实体识别
(2)使用分词工具(如hanLP、jieba、哈工大的、清华大学的、中科大的分词工具等等)提取实意动词、名词、形容词等,再去除停用词。
(3)用textRank提取关键词
(4)用新词发现方法识别新词
3、新闻内容特征
(1)tf-idf
(2)one-hot
(3)word2vec
(4)Bert、XLNet 等,参考我的另外一篇文章: NLP进化史系列之语言模型
4、特征聚类
(1)DBSCAN聚类
(2)K-means (在高维空间里边K-means不是很好)
5、标题排序
(1)textRank
6、词聚类
(1)K-means
(2)DBSCAN
参考https://www.cnblogs.com/LittleHann/p/6595148.html#_label4
https://www.docin.com/p-1617334458.html