文本搜索算法,java基本算法

1.TF-IDF

昨天我们展示了一个简单的文本聚类，但是需要在每个集群中再提取一两个关键字来表示该集群。我们还是在使用TFIDF算法。因为这是比较简单的特征提取算法。但是，这里的TF不是指某个词在本集群内的所有文章中出现的次数，而是指在本文章内出现的次数。 IDF还是出现在所有文章中的反向文档的频率。

原理： 1、先对本簇内所有文档进行分词，然后用一个词典保存每个单词的出现次数

2、巡视各单词，得到所有文档中各单词的IDF值与在本簇内出现的次数(TF )相乘后的值

3、所有单词信息用一个词典(key为单词，value为TF*IDF权重)保存，然后用value对词典进行排序，最后以权重靠前的几个单词为关键词。

2 .基于语义的统计语言模型

文章关键词提取的基础是在全面把握文章中心思想的基础上，可以提取一些代表文章语义内容的词汇和短语，相关结果可用于精化阅读、语义检索、快速匹配等。

采用基于语义的统计语言模型，处理的文档不限于行业领域，可以识别最新的新单词，并对输出的单词进行加权。

文章的关键字提取组件的主要特点如下。

1、速度快：能处理大规模的网络文本数据，平均每小时至少处理50万份文档

2、正确处理： Top N的分析结果往往能反映这篇文章的主干特征；

3、正确排序：关键词按影响权重排序，可输出权重值；

4、开放界面：文章关键词抽取组件作为文本解析器的一部分，采用灵活的开发界面，可以方便地融入用户的业务系统，使各种操作系统、各种调用语言

主要接口：

kw extract _ apiboolkdt _ init (常数char * slicensecode=0)；

kw extract _ apiconstchar * kdt _ parsecontent (const char * stext，int

nMaxCount，bool bWeightFlag=false；

//退出并释放资源的过程结束之前，必须调用它以释放正在使用的内存资源

KWEXTRACT_API void KDT_Exit (；

//得到错误信息

kw extract _ apiconstchar * kdt _ getlasterrmsg (；

下载地址： http://www.lingjoin.com/download/LJ parser.rar参考地址： http://www.lingjoin.com/product/LJ parser.html

3.TF-IWF文档关键字自动提取算法

相对于传统的TF-IWF领域文档关键词快速提取算法，该算法运用简单的统计，考虑单词的长度、位置、词性等启发性知识计算单词权重，通过文档净化、领域词典分词等方法提高了关键词提取的速度和准确性对523篇学生心理健康领域文档的实验结果表明，该算法由TF-IDF方法提取的文档关键字质量优良，且可在o(n )小时内完成。

4 .基于分离模型的中文关键词提取算法研究

关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面起着重要作用。普遍使用的关键字，实际上相当一部分是重要的短语和未登录词，该部分的关键字的提取是非常困难的问题。本文提出了分两个问题处理关键词提取的：关键词提取和关键词串提取，设计了基于分离模型的中文关键词提取算法。该算法针对关键词提取和关键词串提取两个问题设计了不同的特点，以提高提取的准确性。实验表明，相对于传统的关键词提取算法，基于分离模型的中文关键词提取算法效果更好。

5 .基于高维聚类技术的中文关键词提取算法

关键词提取是中文信息处理技术的热点和难点，基于统计信息的方法是其中的重要分支之一。针对基于统计信息的关键词提取方法精度低的问题，提出了一种基于高维聚类技术的中文关键词提取算法。算法基于小词典的快速分词、二次分词、高维聚类以及关键词筛选4个步骤实现关键词的提取。理论分析和实验表明，基于高维聚类技术的中文关键词提取方法具有更好的稳定性、更高效、更准确的结果。

6 .基于语义的中文文本关键字提取(SKE )算法

为了克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点，提出了一种基于语义的中文文本关键词提取(SKE )算法。将单词语义特征引入关键词提取过程中，建立单词语义相似度网络，利用中介度密度测定单词语义重要度。实验结果表明，与基于统计特征的关键词提取算法相比，SKE算法提取的关键词能够体现文档主题，更好地符合人的感知逻辑，算法性能优越。

7 .基于朴素贝叶斯模型的中文关键词提取算法研究

提出了一种基于朴素贝叶斯模型的中文关键字提取算法。该算法首先在训练过程中获得朴素贝叶斯模型中的各个参数，并在此基础上在测试过程中完成关键字提取。实验表明，相对于传统的if*idf方法，该算法能够从小文档集中提取更准确的关键字，还能够灵活地增加表示词重要性的特征项，具有良好的可扩展性。