Transformer P31 遗留Bug修复和数据集上传
前面课程中,我们已经把准备工作,都在本地做完了,接下来就是把数据和代码都传到 Kaggle 上,然后开始训练了。但是课前,我发现了一个遗留的 bug,这节课先修复这个bug,然后把数据集传到 Kaggle 上备用。
Bug修复
这个 bug 就是在自定义数据集上,预测结果特别离谱的原因,但幸好只是预测环节,对训练过程没有影响。
zh_id2vocab, zh_vocab2id = get_vocab('zh') en_vocab2id.get(v.lower(), UNK_ID)
Kaggle训练流程
1、register Kaggle:https://www.kaggle.com,注册验证码,需要科学上网。
2、Upload a Dataset:压缩文件 -> 上传。另外,给大家提供了一份更大的数据集,训练集17w、验证集2w、测试集5w,自己有机器的同学可以尝试。
3、New Notebook。
4、切换 GPU,没有验证手机号的,需要先验证手机号,并打开网络。
5、离线任务中途停止,和历史缓存数据下载。
import time for i in range(100): time.sleep(5) with open(f'{i}.txt', 'w') as file: file.write(f'this is test file - range {i}')
好的,现在我们就把数据集传到了 Kaggle,并且设置好了 GPU 环境,接下来就可以迁移代码,然后训练模型了。
本文链接:http://www.ichenhua.cn/edu/note/678
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!