详情请参阅大人物崇拜! 【原创】文本分类算法TextCNN原理详解(一)- ModifyBlog -博客圈
在Textcnn原理与rnn lstm的比较中,Textcnn更快
textCNN的总结
这次介绍的textCNN是一种应用CNN网络的文本分类模型。
textCNN流程:首先将文本分词进行embeeding得到单词向量,将单词向量卷积,max-pooling,最后输出外置softmax进行n分类。
textCNN优势:模型简单,训练速度快,效果好。
textCNN的缺点:模型可解释型不强,在调整模型时难以根据训练结果针对性地调整具体特征。 由于textCNN没有gbdt模型中特征的重要度(feature importance )之类的概念,因此很难评价各特征的重要度。
文本CNN的优势
TextCNN的最大优势是网络结构简单,在这种模型网络结构简单的情况下,引入训练过的单词向量仍然有效,在很多数据集上都超过了benchmark。
由于网络结构简单,参数数目少, 计算量少, 训练速度快是一台单机单卡v100机,训练165万数据,重复26万步,30分钟左右即可完成收敛。