信息提取技术主要用于提取:
提取实体:比如人、地名、时间等常见实体,比如一些垂直领域需要提取医疗、金融、教育等实体。
提取关系:提取实体与实体之间的关系。
信息提取APP应用场景:
例如,有以上这样的话,需要实体的提取和实体间的关系的提取。 接下来,需要将这些信息集成到知识地图的形式中。
其他APP应用程序:
构建知识库谷歌scholar用户库: Rapleaf、Spoke…购物引擎、产品搜索专利分析证券分析问答q&; a系统的关键:将非结构化数据转换为结构化数据
实体提取的开源工具: Stanford Parser、NLTK、Spacy、foolNLTK、HanNLP
如何识别命名实体:
利用规则(正则表达式)利用分类模型(不考虑时间序列) ) )。
生成模型:朴素贝叶斯…
判别模型:逻辑回归、SVM…时间序列模型
HMM、CRFs、RNN/LSTM/GRU…开源知识库(通过信息提取技术从Web文本集成的结构化信息库) :
如何提取wordnetfreebaseyagodpediaknowledgevault关系:
基于规则监督学习的半监督无监督学习
引导程序
独立服务
无监督学习侧重于Bootstrap方法。
上图显示了几个organization和location关系组(seed tuples )。 然后,如何应用这些已知数据以提取更多的organization-location关系对?
首先,在文本中搜索这些seed tuples。 这些seed tuples存在的文本结构是两者的关系表现。 例如
提取“Microsoft is located in RedMond”、“IBM is situated in Armonk”、几个“is located in”和“is situated in”作为pattern,之后