Pytorch BERT_TextCNN P1 新闻文本分类项目介绍

作者：陈华 • 发布时间：2022-07-26 • 阅读 2982

从本节课开始，我将带大家来完成一个《Bert+TextCNN新闻文本分类项目》。文本分类是自然语言处理最基础，也是最重要的任务之一，非常适合作为NLP入门的第一个项目。

数据集和效果演示

1）数据集：清华大学的 THUCNews 新闻文本分类数据集（子集），训练集18w，验证集1w，测试集1w

2）10个类别：金融、房产、股票、教育、科学、社会、政治、体育、游戏、娱乐

模型结构

在这个课程里，我选用的是 TextCNN 这个模型，来完成分类任务，并不是说只能用 TextCNN，选用其他模型比如 RNN、LSTM 都是可以的。只是因为我有一个小小的野心，就是准备做一个 NLP 的系列项目课程，用尽量不同的模型来完成不同的项目，把常用的模型都覆盖到。同时，TextCNN 也是面试经常会问到的一个基础模型，希望大家学完这个课程之后，能够基本掌握这个模型结构。

另外，大家看到标题里面，在 TextCNN 之前，还接了一个 Bert 模型，这是因为和随机向量化对比，使用 Bert 之后，模型准确率从 0.9 提升到了0.92，准确率有两个点的提升，所以选用了效果更好的模型结构，给大家做讲解。