GCN项目 P5 生成词表和标签表缓存文件

作者：陈华 • 发布时间：2022-06-30 • 阅读 1215

在之前的流程中，我们已经将训练和测试图片，OCR识别生成的csv文件，打上了类别标签。现在我们需要通过训练集的文件，生成词表和标签表的缓存文件，从而实现文字和标签的数字化。

1、添加配置项

内容不可见，请联系管理员开通权限。

2、创建文件

内容不可见，请联系管理员开通权限。

3、文本替换函数

文本替换是最简单，也是最有效的文本信息增强手段。比如身份证号码都是数字，但每个人的身份证号码都不相同。直接进行编码，这个特征差异就会很大，但如果我们把所有的数字都用0代替，这个特征就会基本相同，可以大大提高模型准确率。

内容不可见，请联系管理员开通权限。

4、生成词表

内容不可见，请联系管理员开通权限。

5、生成标签表

内容不可见，请联系管理员开通权限。

6、调用并生成文件

内容不可见，请联系管理员开通权限。

本课程为收费课程，购买后可查看！