前面课程当中,一起搞定了中英文的词表生成。在第P17节,讲过生成词表的目的,是为了把分词之后的词语,转化成一个对应的数字,后面才能进行数学计算;另外,在最后的预测生成环节,还需要把预测出来的数字,转化成人能看懂的词语。所以,这节课,我们来搞定词语和数字互转的逻辑。

代码示例

1、词表解析函数

中英文词表的处理逻辑是一样的,只是加载的文件不同,所以用一个参数进行区分。

内容不可见,请联系管理员开通权限。

2、特殊词配置

在后面加载数据时,有几个特殊字符的 ID 可能会比较常用,而且这几个词的 ID 也是固定了,我们给他写到配置项中,方便调用,就不用每次都加载这个函数了。

内容不可见,请联系管理员开通权限。

3、调用测试

内容不可见,请联系管理员开通权限。

到目前为止,词表这块就做完了,其实很简单,就是先分词,再把词语转化为 id 的过程,在 NLP 任务中,是一个非常常用的功能,大家需要掌握。

本文链接:http://www.ichenhua.cn/edu/note/666

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!