哈工大dpp,哈工大edp中心

下载安装安装

使用python版本的ltp

pip install pyltp 下载对应版本模型

可以在这里下载
https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F
注意对应版本下载

基本用法 # -*- coding: utf-8 -*-#作者：MebiuW#微博：@MebiuW#python 版本：2.7#时间 2016/9/10from pyltp import SentenceSplitterfrom pyltp import Segmentorfrom pyltp import Postaggerfrom pyltp import SementicRoleLabellerfrom pyltp import NamedEntityRecognizerfrom pyltp import Parser#分词def segmentor(sentence='你好，你觉得这个例子从哪里来的？当然还是直接复制官方文档，然后改了下这里得到的。我的微博是MebiuW，转载请注明来自MebiuW！'): segmentor = Segmentor() # 初始化实例 segmentor.load('/home/bfs/download/ltp_data_v3.4.0/ltp_data/cws.model') # 加载模型 words = segmentor.segment(sentence) # 分词 #默认可以这样输出 print 't'.join(words) # 可以转换成List 输出 words_list = list(words) segmentor.release() # 释放模型 return words_listdef posttagger(words): postagger = Postagger() # 初始化实例 postagger.load('/home/bfs/download/ltp_data_v3.4.0/ltp_data/pos.model') # 加载模型 postags = postagger.postag(words) # 词性标注 for word,tag in zip(words,postags): print word+'/'+tag postagger.release() # 释放模型 return postags#分句，也就是将一片文本分割为独立的句子def sentence_splitter(sentence='你好，你觉得这个例子从哪里来的？当然还是直接复制官方文档，然后改了下这里得到的。我的微博是MebiuW，转载请注明来自MebiuW！'): sents = SentenceSplitter.split(sentence) # 分句 print 'n'.join(sents)#命名实体识别def ner(words, postags): recognizer = NamedEntityRecognizer() # 初始化实例 recognizer.load('/home/bfs/download/ltp_data_v3.4.0/ltp_data/ner.model') # 加载模型 netags = recognizer.recognize(words, postags) # 命名实体识别 for word, ntag in zip(words, netags): print word + '/' + ntag recognizer.release() # 释放模型 return netags#依存语义分析def parse(words, postags): parser = Parser() # 初始化实例 parser.load('/home/bfs/download/ltp_data_v3.4.0/ltp_data/parser.model') # 加载模型 arcs = parser.parse(words, postags) # 句法分析 print "t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs) parser.release() # 释放模型 return arcs#角色标注def role_label(words, postags, netags, arcs): labeller = SementicRoleLabeller() # 初始化实例 labeller.load('/home/bfs/download/ltp_data_v3.4.0/ltp_data/srl') # 加载模型 roles = labeller.label(words, postags, netags, arcs) # 语义角色标注 for role in roles: print role.index, "".join( ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]) labeller.release() # 释放模型#测试分句子print('******************测试将会顺序执行：**********************')sentence_splitter()print('###############以上为分句子测试###############')#测试分词words = segmentor('犯罪嫌疑人呆萌的柜子，男，居民身份证：123456789123456789，2018年01月25日出生，汉族，初中文化，户籍所在地：邵伯镇运东村XXXX组1111号，现住址：江苏省江都市邵伯镇运东村XXXX组1111号，职业：无业人员。因涉嫌盗窃于2018年01月25日被我局刑事拘留\犯罪嫌疑人呆萌的柜子三涉嫌盗窃案，由报案人ymdxhd于2018年01月25日18时报案至我局。我局经过审查，于2018年01月25日立案进行侦查。犯罪嫌疑人呆萌的柜子山已于2018年01月25日被抓获归案。　　经依法侦查查明：2018年01月25日18时许，ymdxhd（男,2018年01月25日生,联系电话：无,曹妃甸）报警：2018年01月25日欣喜的战斗机的三星手机被盗，价值人民币3000元。　　认定上述犯罪事实的证据：的风格大方过　　上述犯罪事实清楚，证据确实、充分，足以认定。　　综上所述，犯罪嫌疑人呆萌的柜子山的行为已触犯了《中华人民共和国刑法》第二百六十四条之规定，涉嫌盗窃罪。依照《中华人民共和国刑事诉讼法》第一百六十条之规定，现特将此案移送审查起诉。')print('###############以上为分词测试###############')#测试标注tags = posttagger(words)print('###############以上为词性标注测试###############')#命名实体识别netags = ner(words,tags)print('###############以上为命名实体识别测试###############')#依存句法识别# arcs = parse(words,tags)# print('###############以上为依存句法测试###############')# #角色标注# roles = role_label(words,tags,netags,arcs)# print('###############以上为角色标注测试###############')