NER项目 P13 命名实体识别替换数据集说明

作者：陈华 • 发布时间：2023-07-24 • 阅读 1380

接下来的几节课，要完成的任务，是给之前讲过的命名实体识别任务，替换一份比较好的医疗数据集，重新训练之后，用于医疗知识图谱项目中的实体识别流程。

同样是医疗的项目，为什么要替换数据集呢？因为之前NER课程用的数据集，是一个竞赛提供的，竞赛一般为了拉开差距，会故意加上一些噪声，不做清洗准确率很难超过0.7。

知识图谱这个项目，还是想给大家做出一个尽量好的效果，所以重新找了一份相对比较好的数据，来做实体识别的模型训练。同时，也是借这个机会，给大家演示一下替换数据集的过程，之前也有很多同学有这方面的疑问，在这里做一个统一的答疑讲解。

命名实体识别项目：http://edu.ichenhua.cn/edu/course/24，没有学过的同学，还是建议大家去补一下基础。

数据集：ChineseBLUE/cMedQANER

内容不可见，请联系管理员开通权限。

1、目录结构

模型训练过程，是离线操作，单独创建文件夹来处理。

内容不可见，请联系管理员开通权限。

2、修改配置文件

内容不可见，请联系管理员开通权限。

3、生成标签表

数据集贴心的帮我们生成了，字符和标签一对一的样本文件，预处理只需要提取标签即可。

内容不可见，请联系管理员开通权限。

这节课内容比较简单，主要是把新的数据集，导入到了之前的实体识别项目中。还是那句话，万丈高楼平地起，如果没看过之前实体识别的课程，还是建议先学习之前的命名实体识别课程，打好基础再看后面的内容。

本课程为收费课程，购买后可查看！