java excel,高考非连续性文本阅读之比较异同

从文本分类系统的处理流程来看，无论待分类文本是中文还是英文，在训练阶段前都必须经过预处理步骤，去除不必要的信息，减少后续步骤的复杂度和计算负担。

在中文文本中，首先要经过分词的过程。将连续的文字流切分成一个个单独的词汇。因为词汇是训练阶段“特征”的最基本单位。例如，原文“中华人民共和国今天成立”的文本可以划分为“中华/人民/共和国/今天/成立/成立”的形式。英语的话，没有这个步骤。更严格地说，不是没有这一步，而是英语只通过空格和标点就可以很容易地从原文中区分出一个个独立的词。中文分词的效果对文本分类系统的表达有很大的影响。在后续流程中，由于使用了所有预处理后的文本信息，不再参照原文本，所以分词效果较差，与引入了错误的训练数据相同。分词本身也是一个值得大书特书的问题，目前常用的方法有字典法、隐马尔可夫模型和新的CRF法。

预处理中分词后的“停词”步骤对两者来说是一样的，都是将语言中表意能力差的辅助性文字从原文本中去除。在中文文本中，去除了诸如“我们”、“在”、“坏了”、“的”之类的词，英语中的“an”、“in”、“ttin”此过程参考被称为“停止字表”的数据它记录了要删除的词，可能以文件格式存储在硬盘中，也可能以数据结构格式存储在内存中。

在中文文本中，这样就通过了初审，可以参加训练了(笑)。英语文本还有进一步简化和压缩的空间。大家都知道英语里同一个词有所谓的词形变化，名词有单复数变化，动词有时态变化，形容词有比较级变化等。它还包括这些变化形式的某种组合。正因为词义本身没有变化，所以只有词形不同的词才能作为独立的词被保存，不应该参与分类计算。去除这些词形不同但词义相同的词，留下一个拷贝的步骤称为“词根复原”。例如，在一个英文文档中，经过词根复原后，“computer”、“compute”、“computing”、“computationall”这样的词都是“computer”、“computing”

经过预处理步骤后，原文档转换为非常节约资源、便于计算的形式，后面的训练阶段相似(只是提取的特点不同，毕竟一个是汉语词汇的集合，一个是英语词汇的集合)。

下一章将侃侃而谈分类问题本身的分类。