1.TF-IDF
昨天我们展示了一个简单的文本聚类,但是需要在每个集群中再提取一两个关键字来表示该集群。 我们还是在使用TFIDF算法。 因为这是比较简单的特征提取算法。 但是,这里的TF不是指某个词在本集群内的所有文章中出现的次数,而是指在本文章内出现的次数。 IDF还是出现在所有文章中的反向文档的频率。
原理: 1、先对本簇内所有文档进行分词,然后用一个词典保存每个单词的出现次数
2、巡视各单词,得到所有文档中各单词的IDF值与在本簇内出现的次数(TF )相乘后的值
3、所有单词信息用一个词典(key为单词,value为TF*IDF权重)保存,然后用value对词典进行排序,最后以权重靠前的几个单词为关键词。
2 .基于语义的统计语言模型
文章关键词提取的基础是在全面把握文章中心思想的基础上,可以提取一些代表文章语义内容的词汇和短语,相关结果可用于精化阅读、语义检索、快速匹配等。
采用基于语义的统计语言模型,处理的文档不限于行业领域,可以识别最新的新单词,并对输出的单词进行加权。
文章的关键字提取组件的主要特点如下。
1、速度快:能处理大规模的网络文本数据,平均每小时至少处理50万份文档
2、正确处理: Top N的分析结果往往能反映这篇文章的主干特征;
3、正确排序:关键词按影响权重排序,可输出权重值;
4、开放界面:文章关键词抽取组件作为文本解析器的一部分,采用灵活的开发界面,可以方便地融入用户的业务系统,使各种操作系统、各种调用语言
主要接口:
kw extract _ apiboolkdt _ init (常数char * slicensecode=0);
kw extract _ apiconstchar * kdt _ parsecontent (const char * stext,int
nMaxCount,bool bWeightFlag=false;
//退出并释放资源的过程结束之前,必须调用它以释放正在使用的内存资源
KWEXTRACT_API void KDT_Exit (;
//得到错误信息
kw extract _ apiconstchar * kdt _ getlasterrmsg (;
下载地址: http://www.lingjoin.com/download/LJ parser.rar参考地址: http://www.lingjoin.com/product/LJ parser.html
3.TF-IWF文档关键字自动提取算法
相对于传统的TF-IWF领域文档关键词快速提取算法,该算法运用简单的统计,考虑单词的长度、位置、词性等启发性知识计算单词权重,通过文档净化、领域词典分词等方法提高了关键词提取的速度和准确性对523篇学生心理健康领域文档的实验结果表明,该算法由TF-IDF方法提取的文档关键字质量优良,且可在o(n )小时内完成。
4 .基于分离模型的中文关键词提取算法研究
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面起着重要作用。 普遍使用的关键字,实际上相当一部分是重要的短语和未登录词,该部分的关键字的提取是非常困难的问题。 本文提出了分两个问题处理关键词提取的:关键词提取和关键词串提取,设计了基于分离模型的中文关键词提取算法。 该算法针对关键词提取和关键词串提取两个问题设计了不同的特点,以提高提取的准确性。 实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
5 .基于高维聚类技术的中文关键词提取算法
关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中的重要分支之一。 针对基于统计信息的关键词提取方法精度低的问题,提出了一种基于高维聚类技术的中文关键词提取算法。 算法基于小词典的快速分词、二次分词、高维聚类以及关键词筛选4个步骤实现关键词的提取。 理论分析和实验表明,基于高维聚类技术的中文关键词提取方法具有更好的稳定性、更高效、更准确的结果。
6 .基于语义的中文文本关键字提取(SKE )算法
为了克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出了一种基于语义的中文文本关键词提取(SKE )算法。 将单词语义特征引入关键词提取过程中,建立单词语义相似度网络,利用中介度密度测定单词语义重要度。 实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能够体现文档主题,更好地符合人的感知逻辑,算法性能优越。
7 .基于朴素贝叶斯模型的中文关键词提取算法研究
提出了一种基于朴素贝叶斯模型的中文关键字提取算法。 该算法首先在训练过程中获得朴素贝叶斯模型中的各个参数,并在此基础上在测试过程中完成关键字提取。 实验表明,相对于传统的if*idf方法,该算法能够从小文档集中提取更准确的关键字,还能够灵活地增加表示词重要性的特征项,具有良好的可扩展性。