项目使用深度学习模型进行文本分类,所使用的模型主要包括:FastText,TextCNN,DPCNN,RNN系列(RNN,LSTM,GRU),RNN-Attention,TextRCNN,HAN,Bert,BertCNN,BertRNN,BertRCNN,XLNet。
方法部分对每个模型及其结构给出简要介绍,并附上pytorch代码实现。
实验部分所采用的的数据集:weibo_senti_100k情感分类(二分类),cnews新闻十分类,____文本多标签分类。
数据下载:微博情感分类数据在github仓库中给出, cnews新闻数据 密码:hf6o, ____文本多标签数据
词向量下载:词向量
预训练模型下载:中文预训练bert模型下载,中文预训练XLNet下载
项目仓库地址:中文文本分类
如出现数学公式乱码以及图片问题,请移步github.io来获得更好的阅读体验。
最后,欢迎star!