从这节课开始,我们来训练意图识别的模型,意图识别的英文是:Intent Recognition,以下简称:IR模型。所谓的意图识别,在知识图谱的这个项目中,就是给用户的问题做一个分类,本质上还是一个文本分类任务。同时,类别最好跟系统预设的模板一一对应,后面就不用做映射了。

类别列表

内容不可见,请联系管理员开通权限。

数据集

在工业级项目中,数据来源最好是历史数据中,用户的真实问题,然后做对应的标注。但是做课的话,显然没有这种条件,所以,在课前带大家用ChatGPT,生成了一批数据,用来做这个课程配套的模型训练。

如果大家在工作中,有机会上线真实项目,也可以用这种模拟数据做项目冷启动,等有真实的用户之后,再标注用户提交数据,然后更新模型,这样模型就可以定期更新了。

模型结构

模型结构,沿用的是新闻文本分类课程的Bert+TextCNN结构,同样,没有看过这个课程的同学,也是建议大家先去学习文本分类的课程。意图识别名字很玄乎,本质上还是一个文本分类的任务。课程链接:http://www.ichenhua.cn/edu/course/28.

目录结构

跟命名实体识别任务一样,意图识别的训练,也是离线操作就可以了,所以也放到 offline 文件夹中。

内容不可见,请联系管理员开通权限。

因为这份数据,是按我们给定的规则生成的,所以数据格式比较规整、样本分布也比较均匀,不需要做数据预处理了,下节课就直接改Dataset类了。

本文链接:http://www.ichenhua.cn/edu/note/624

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!