ChatGPT应用 P3 用于模版填充的实体文件生成

作者：陈华 • 发布时间：2023-08-03 • 阅读 1001

前面课程中，我们用ChatGPT生成了语料的模板，模板中的疾病、症状这些实体，都是用特殊字符占位的。接下来，就是要用真实的实体内容，去替换占位符，生成真实的训练数据了。

那这些真实的实体内容从哪来呢？我们提前用一下医疗知识图谱的数据，把知识图谱的原始数据里面的实体抽取出来，填充到模板当中。

内容不可见，请联系管理员开通权限。

1、读取数据

内容不可见，请联系管理员开通权限。

2、逐条读取数据

defaultdict()这个方法，在之前电影知识图谱项目里面详细讲过了，不清楚的可以回去复习一下。实体名称可能会有重复，用set类型，就不用去重了。需要注意的是set类型添加单个元素用add，添加序列数据用update。

内容不可见，请联系管理员开通权限。

3、写入文件

内容不可见，请联系管理员开通权限。

这节课内容很简单，有一个数据处理的小技巧，就是defaultdict()这个方法。大家在以后的开发过程中，也可以多使用它，来简化自己的代码。

本课程为收费课程，购买后可查看！