中文语义分析工具(在线舆情监测平台)

7月17日，由人民日报舆情数据中心/人民在线主办的以“重大风险评估体系建设”为主题的第二届“人民云社会评估技术大会”在线成功举办。数据建模、计算机技术应用、舆情等领域的专家学者就如何有效利用新技术完善重大风险评估体系建设进行了分享和探讨。人民日报舆情数据中心首席数据分析师Wxdjm分享了基于语义理解的舆情事件评级和精细文本分类主题。

01舆情事件评级评估

Wxdjm从四个方面阐述了舆情事件的评级：一是目前舆情行业评级的主要方法和存在的问题。目前行业使用的指标主要是热值。搜索的热度值或报道的数量虽然可以反映一个事件的社会关注度，但也存在着索引单一、数据不完整、无法根据用户特点提供个性化服务等问题。因此，要评估舆情事件的严重程度，需要有一个更全面、多维度、面向用户的模型，能够容纳原有的方法。

二是舆情事件综合评价模型的设计原则，涉及两个方面。首先要考虑模型中有哪些变量，其次要遵循建立模型的原则。变量有三个主要考虑因素。第一点是考虑利益相关者，第二点是考虑其面临的用户，第三点是事件的严重程度，从而构建模型结构。利用机器学习的概念，通过训练得到模型参数，这也是本研究的创新之处。当然，梯度下降等典型的反向传播方法不是机器自动实现的，而是按照一定的规则人工调试的。在构建模型时，需要考虑它的健壮性和稳健性，同时必须充分利用舆情专家的经验。

Wxdjm从目的和数据两个方面来解释舆情事件的评级评估。他提出目的要遵循输入简单、逻辑简单明了、直观客观的要求。数据主要依靠系统自动采集，用户简单查询，用户少量主观判断。评分模型结构由评分和评分两部分组成，有三个环节。利用该模型对舆情事件的评估过程见图1:

图1利用该模型对舆情事件的评估过程

对于评分模型，wxdjm根据以下公式进行考虑：

舆情事件原始得分=(传播热度影响因素)*用户相关系数*事件严重程度

其中，传播热度是基础和基本面，影响因素部分叠加，用户相关系数和事件严重程度是整体影响因素。在模型中，即使没有跟踪事件(由于某些原因，网上没有报告)，在百分传播热度中也可以有一个基本的60分，保证了模型的稳健性。Wxdjm还强调，事件中敏感因素的总分不应超过13分，既不影响事件的根本特征，又能反映事件对象的局部叠加效应，使模型不会因某些变量数值的微小变化而对结果产生较大影响，从而保证了模型的稳健性。

第三，对某政府部门用户进行了实例分析。人民日报在线请舆情专家对36个舆情事件(类别基本均衡)进行评分，充分利用专家知识，通过这些标注样本训练参数。理想情况下，不同类别案件的评分区间不交叉(例如“一般”类的最高分更接近“敏感”类的最低分)，不同类别的评分区间应大致相等作为损失函数，因此得到的多分类模型相当准确。目前使用这种监督学习方法是可行的。

最后，wxdjm针对当前模型提出了一些存在的问题和改进方法。首先，目前样本量不够，需要专家打分打分；其次，对于不同级别的赛事，如何确定交叉评分情况下的门槛。针对这两个问题，wxdjm提出，首先要对样本进行扩展，使用一些不用于训练的专家打分样本作为“验证集”。迭代这个方法，使参数更合理。二是展开集合对象。当前的热度值收集对象只是关于某个事件的关键词报道的文章和网页，后续的收集可以添加文章本身的喜欢和转发。第三，对于不同级别事件评分的横截面和阈值的确定方法，应考虑更详细的规则。

02基于知识地图和自然语言处理的精细文本分类

Wxdjm首先阐述了知识地图的实际需求和NLP的细化文本分类。在目前的文本分类中，分类一般结合上下文，在句子层面和单词层面的理解不够。因此，有必要利用基于知识图谱的自然语言处理技术进一步消除单词歧义，对文本进行语义识别，实现精细化分类，从单词和句子两个层面解决问题。Wxdjm还简单介绍了NLP和知识图谱。NLP是使人与机器之间能够无障碍交流，让计算机能够毫无困难地理解人类的自然语言。自然语言处理的研究主要包括以下几个方面：句子中的词标注、句法分析、自然语言生成、文本分类、海量信息检索、重要信息提取、文本自动阅读、人机问答系统、机器翻译和文章摘要提取等。为了满足上述应用，语义分析已经成为自然语言处理技术的核心任务之一。知识地图是一个结构化的语义知识库，用于以符号形式描述物理世界中的概念及其关系。它的基本单位是“实体-关系-实体”或“实体-属性-属性值”的三元组。实体之间通过关系相互联系，形成网络知识结构。知识地图包含三层含义：1)知识地图的本质是由属性实体通过关系链接的网状知识库。2)从图表的一角

度来看，知识图谱在本质上是一种概念网络，其中的节点表示物理世界的实体（或概念），而实体间的各种语义关系则构成网络中的边。3）知识图谱是对物理世界的一种符号表达。知识图谱由数据层 (data layer)和模式层 (schema layer)两部分构成，大多只有数据层，除非要进行知识推理时候才需要模式层。

知识图谱有人工构建和机器自动构建两种方式。见图2知识图谱自动构建方法：

图2 知识图谱自动构建方法

对于句子级的语义分析，wxdjm表示主要是通过语义标注来了解句子含义。语义标注首先需要处理最小对象——知识元，也就是词，需要先了解知识元含义，然后明确知识元联结方式，二者共同构成句子含义，从而实现句子级语义理解。知识元/词含义需要有两个方面工作：分词和消除歧义，知识元联结方式包括词与词之间关系，还有词与词之间的组合方法。见图3知识图谱应用于句子级语义理解：

图3 知识图谱应用于句子级语义理解

优化词嵌入算法，引入知识图谱，实现分类优化，见图4分词有序嵌入到词向量空间中。wxdjm提出四个方面：一是分词有序进入到词向量空间中，要把自然语言转化到机器语言，这时机器才能对自然语言进行一个理解；二是关键词的提取，运用了TextRank算法；三是利用知识图谱实体对齐方法，消除分词歧义，将基于属性相似性评分匹配问题转化为分类问题；四是利用基于共同邻居计数方法的结构相似性函数分辨词义远近。

图4 分词有序嵌入到词向量空间中

基于句子级语义理解，知识图谱NLP精细化理解文本的方法，wxdjm提出首先要基于句子级语义分析，结合知识图谱，精确爬取文本。其次要引入知识图谱进行第二次文本分类，这也是本研究创新点。句子级语义分析首先要提取出关键词，并找到其对应领域知识图谱，进行第二次的分类匹配。在第二次细分文本的过程中，首先对文章进行摘要，并定位关键词段落，每一个关键词找到5个三元组，从而建设好知识图谱。

运用知识图谱进行二次文本分类即对上述过程进行更具体地细化。首先对文本进行分词，找到含有歧义的段落，嵌入词向量空间，通过LSTM进行文本摘要，得到三个以上关键词。通过构建图谱抽取5个三元组，在与对应领域匹配比对，从而实现文本的第二次分类。见图5引入知识图谱实现第二次文本精细化分类：

图5 引入知识图谱实现第二次文本精细化分类

在测试结果及改进问题上，wxdjm与技术专家共同研讨后发现，通过自动构建的知识图谱与文本中的三元组匹配，相似度没有想象中的那么高。其误差原因可能在于运用通用型语言构建图谱，缺乏针对性。因此需要有更专业的素材来创建领域知识图谱。最后wxdjm总结，将知识图谱结合NLP方法是一条可行的路径，这个方法在很多其他课题中也同样适用。

人民在线的“人民云社会评价科技”是人民网“内容科技”的组成部分，通过人工智能、区块链、大数据等技术应用，快速、高效、精准地将海量的社会认知，转化为可定性和定量分析的社会评价。举办系列“人民云社会评价科技大会”旨在构建一个开放共享的交流平台，推进大数据在社会治理领域的应用，为国家治理体系和治理能力现代化水平的提升贡献“人民力量”。

编辑：kkdsp（实习生）|责编: 怕孤独的向日葵