信息抽取（IE）

信息提取是提取嵌入在文本中的非结构化信息并将其转换为结构化数据的过程。命名实体之间的关系是从自然语言构成的语料库中提取出来的，是基于命名实体识别的更深层次的研究。信息抽取的主要过程包括三个步骤：首先，非结构化数据的自动处理；其次，有针对性地提取文本信息；最后，提取信息的结构化表示。信息抽取最基础的工作是命名实体识别，核心在于实体关系的抽取。[6]

自动文摘

自动摘要是一种信息压缩技术，通过使用计算机按照一定的规则自动提取文本信息并将其聚合成简短的摘要。它旨在实现两个目标：第一，保持语言简短，第二，保持重要信息。[6]

语音识别技术

语音识别技术是允许机器通过识别和理解的过程将语音信号转换为相应的文本或命令的技术，即让机器理解人类的语音，其目标是将人类语音中的词汇内容转换为计算机可读的数据。要做到这一点，首先要把连续语音分解成词、音素等单位，建立一套理解语义的规则。在过程方面，语音识别技术包括前端降噪、语音切割与成帧、特征提取和状态匹配。该框架可分为三个部分：声学模型、语言模型和解码。[7]

Transformer 模型

Transformer模型最早由谷歌团队在2017年提出。Transformer是一种基于注意机制加速深度学习算法的模型。该模型由一组编码器和一组解码器组成。编码器负责处理任意长度的输入并生成其表达式，解码器负责将新表达式转换为目标词。Transformer模型使用注意机制来获取所有其他单词之间的关系，并生成每个单词的新表示。Transformer的优点是注意机制可以直接捕捉句子中所有单词之间的关系，而不考虑单词的位置。在抛弃传统的编解码模型之前，该模型必须结合RNN或CNN(卷积神经网络，CNN)的固有模型，用full Attention的结构代替LSTM，这样可以在不破坏最终实验结果的情况下，减少计算量，提高并行效率。但是，这种模式也有缺陷。首先这个模型计算量太大，其次存在位置信息利用不明显，无法捕捉远距离信息的问题。[8]

基于传统机器学习的自然语言处理技术

自然语言处理可以将处理任务分为多个子任务。传统的机械学习方法可以使用SVM(支持向量机模型)，

马尔科夫(Markov Model)、CRF(条件随机场模型)等方法用自然语言处理多个子任务，进一步提高了处理结果的准确性。但从实际应用效果来看，仍存在以下不足：(1)传统机器学习训练模型的性能过于依赖训练集的质量，需要人工标注训练集，降低了训练效率。(2)传统机器学习模型中的训练集在不同领域的应用效果不同，削弱了训练的适用性，暴露了单一学习方法的弊端。如果训练数据集适用于很多不同的领域，那么需要大量的人力资源进行人工标注。(3)在处理更高阶、更抽象的自然语言时，机器学习无法对这些自然语言特征进行人工标注，使得传统机器学习只能学习预先建立的规则，而无法学习规则之外的复杂语言特征。[9]

基于深度学习的自然语言处理技术

深度学习是机器学习的一个主要分支。在自然语言处理中，应该应用深度学习模型，如卷积神经网络和循环神经网络。通过学习生成的词向量，可以完成自然语言分类和理解的过程。与传统机器学习相比，基于深度学习的自然语言处理技术具有以下优势：(1)深度学习可以在单词或句子矢量化的前提下保持学习语言特征，掌握更高级、更抽象的语言特征，满足自然语言