Transformer P20 Dataset类加载数据集

作者：陈华 • 发布时间：2023-09-02 • 阅读 590

前面课程中，搞定了分词和转 ID 的过程，接下来就可以加载数据集了。还是老办法，用 Dataset 和 DataLoader 这两个类，来完成数据集的处理和加载过程。

1、创建文件

内容不可见，请联系管理员开通权限。

2、加载数据集

内容不可见，请联系管理员开通权限。

3、单条数据 tokenizer

英文翻译成中文，所以 en_text 是 source，zh_text 是 target，做中文翻译成英文，反过来即可。返回 zh_text 是用于后续做模型评估。

内容不可见，请联系管理员开通权限。

4、调用测试

直接调用会报错，因为 get_item 返回的不是 tensor 结构，下节课处理。

内容不可见，请联系管理员开通权限。

这节课主要讲解数据集的加载，和句子的 Tokenizer 过程，但是 get_item 方法返回的数据不是 tensor，所以下节课我们还需要处理一下 batch 数据。

本课程为收费课程，购买后可查看！