首页 > 编程知识 正文

提取信息的方法(抽取信息废弃系统)

时间:2023-05-04 03:37:08 阅读:65861 作者:2358

信息提取技术主要用于提取:

提取实体:比如人、地名、时间等常见实体,比如一些垂直领域需要提取医疗、金融、教育等实体。

提取关系:提取实体与实体之间的关系。

信息提取APP应用场景:

例如,有以上这样的话,需要实体的提取和实体间的关系的提取。 接下来,需要将这些信息集成到知识地图的形式中。

其他APP应用程序:

构建知识库谷歌scholar用户库: Rapleaf、Spoke…购物引擎、产品搜索专利分析证券分析问答q&; a系统的关键:将非结构化数据转换为结构化数据

实体提取的开源工具: Stanford Parser、NLTK、Spacy、foolNLTK、HanNLP

如何识别命名实体:

利用规则(正则表达式)利用分类模型(不考虑时间序列) ) )。

生成模型:朴素贝叶斯…

判别模型:逻辑回归、SVM…时间序列模型

HMM、CRFs、RNN/LSTM/GRU…开源知识库(通过信息提取技术从Web文本集成的结构化信息库) :

如何提取wordnetfreebaseyagodpediaknowledgevault关系:

基于规则监督学习的半监督无监督学习

引导程序

独立服务

无监督学习侧重于Bootstrap方法。

上图显示了几个organization和location关系组(seed tuples )。 然后,如何应用这些已知数据以提取更多的organization-location关系对?

首先,在文本中搜索这些seed tuples。 这些seed tuples存在的文本结构是两者的关系表现。 例如

提取“Microsoft is located in RedMond”、“IBM is situated in Armonk”、几个“is located in”和“is situated in”作为pattern,之后

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。