在之前的流程中,我们已经将训练和测试图片,OCR识别生成的csv文件,打上了类别标签。现在我们需要通过训练集的文件,生成词表和标签表的缓存文件,从而实现文字和标签的数字化。

代码示例

1、添加配置项

内容不可见,请联系管理员开通权限。

2、创建文件

内容不可见,请联系管理员开通权限。

3、文本替换函数

文本替换是最简单,也是最有效的文本信息增强手段。比如身份证号码都是数字,但每个人的身份证号码都不相同。直接进行编码,这个特征差异就会很大,但如果我们把所有的数字都用0代替,这个特征就会基本相同,可以大大提高模型准确率。

内容不可见,请联系管理员开通权限。

4、生成词表

内容不可见,请联系管理员开通权限。

5、生成标签表

内容不可见,请联系管理员开通权限。

6、调用并生成文件

内容不可见,请联系管理员开通权限。

本文为 陈华 原创,欢迎转载,但请注明出处:http://www.ichenhua.cn/edu/note/468