提取信息的方法(抽取信息废弃系统)

信息提取技术主要用于提取：

提取实体：比如人、地名、时间等常见实体，比如一些垂直领域需要提取医疗、金融、教育等实体。

提取关系：提取实体与实体之间的关系。

信息提取APP应用场景：

例如，有以上这样的话，需要实体的提取和实体间的关系的提取。接下来，需要将这些信息集成到知识地图的形式中。

其他APP应用程序：

构建知识库谷歌scholar用户库： Rapleaf、Spoke…购物引擎、产品搜索专利分析证券分析问答q&； a系统的关键：将非结构化数据转换为结构化数据

实体提取的开源工具： Stanford Parser、NLTK、Spacy、foolNLTK、HanNLP

如何识别命名实体：

利用规则(正则表达式)利用分类模型(不考虑时间序列) ) )。

生成模型：朴素贝叶斯…

判别模型：逻辑回归、SVM…时间序列模型

HMM、CRFs、RNN/LSTM/GRU…开源知识库(通过信息提取技术从Web文本集成的结构化信息库) :

如何提取wordnetfreebaseyagodpediaknowledgevault关系：

基于规则监督学习的半监督无监督学习

引导程序

独立服务

无监督学习侧重于Bootstrap方法。

上图显示了几个organization和location关系组(seed tuples )。然后，如何应用这些已知数据以提取更多的organization-location关系对？

首先，在文本中搜索这些seed tuples。这些seed tuples存在的文本结构是两者的关系表现。例如

提取“Microsoft is located in RedMond”、“IBM is situated in Armonk”、几个“is located in”和“is situated in”作为pattern，之后