实际项目中,准确率能达到 0.9 以上,模型就是可用的,所以接下来,我们就用在GPU上训练好的模型,来做预测了。

因为预测的数据,更多是来源于接口或者表单输入,并不是文件,所以没法用 Dataset 的加载方法。所以,在预测环节,我们需要重复实现一遍,数据处理的过程,主要是 Bert 分词和长度截取的逻辑。

代码示例

1、模型预测

内容不可见,请联系管理员开通权限。

项目总结

1)TextCNN 的模型结构很简单,但它是一个面试的高频问题,这个项目中,我们用的是 Bert 做的前置的文本向量化,建议大家再用随机 Embedding 试一试,对比一下两个模型的效果,随机 Embedding 这块不熟悉的话,可以参考「医疗命名实体识别项目」。

2)在这个项目当中,我们做的是对新闻标题进行文本分类,其实文本分类是一个运用面很广的任务,后面我规划的「属性级情感分类」和「智能对话机器人」两个项目中,都会用到文本分类的思想。后面的项目会越来越大,这个项目相当于是一个铺垫。

本文链接:http://www.ichenhua.cn/edu/note/510

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!