文本挖掘和数据挖掘的区别,浅析文本挖掘方法

文本挖掘始终是一个非常重要的信息处理领域。因为无论是推荐系统、搜索系统还是其他广泛的APP应用，都需要借助文本挖掘的力量。虽然每天生成的信息量都在迅速增长，但这些信息基本上是非结构化的大量文本，无法在计算机上轻松处理和识别。因此，为了发现有用的模式，需要一些高效的技术和算法。文本挖掘近年来备受关注，是一项从文本文件中提取有效信息的任务。

由于以社交网络、病历、医疗保障数据、新闻出版等多种形式出现的文本数据数量非常多，文本挖掘(TM )近年来备受关注。 IDC在一份报告中预测，到2020年，数据量将增长到400亿TB(4* )字节。也就是说，从2010年初开始增加到50倍(50 )。

文本数据是典型的非结构化信息，往往是最简单的数据格式之一。人类可以很容易地处理和感知非结构化文本，但机器显然很难理解。当然，这些文本确实是信息和知识的宝贵来源。因此，设计一种能够在各种APP应用中有效处理非结构化文本的方法成为当务之急。目前的文本挖掘方法主要有：

信息检索(IR )是一种从满足信息需求的非结构化数据集中查找信息资源(通常是文档)的行为。

自然语言处理(Natural Language Processing，NLP )自然语言处理是计算机科学、人工智能、语言学的子领域，旨在利用计算机理解自然语言。

文本信息提取(IE )信息提取来自文本，信息提取是一项从非结构化或半结构化文档中自动提取信息或事实的任务。

文本摘要：许多文本挖掘APP应用程序都需要对文本文档进行摘要，以简要概述大型文档和主题的文档集合。

无监督学习方法(文本)无监督学习方法是试图从未标记的文本中获取隐藏的数据结构的技术，例如使用聚类方法将类似文本分类到同一个类中。

监视学习方法(文本)监视学习方法从标记的训练数据中学习分类器或估计功能，对未知数据执行预测的机器学习技术。

文本挖掘的概率方法：各种不同的主题模型，如概率潜在语义分析模型[64]和文档主题生成模型[LDA][16]，以及可以在文本挖掘上下文中使用的条件随机字段等监视学习方法

文本流和社交媒体挖掘：网络上有很多不同的APP应用程序，可以生成大量的文本数据流。

观点挖掘和情感分析：随着电子商务和网络购物的出现，产生了大量的文本，在不同产品的评论和用户意见中不断增加。

生物医学文本挖掘：生物医学文本挖掘是指对生物医学科学领域文本进行文本挖掘的任务。