CasRel项目 P15 Bug修复和GPU负载均衡

作者：陈华 • 发布时间：2023-04-30 • 阅读 223

前面课程当中，对数据集进行了替换，接下来还有一部分代码需要调整。主要是两个方面，一个评估方法里面有一个bug，另外一个就是Kaggle超时的问题，我们用Kaggle的两块GPU做并行训练，加快训练速度。

1、Bug修复

内容不可见，请联系管理员开通权限。

2、不冻结Bert参数

冻结Bert参数之后，训练过程中只会更新Linear参数，对复杂任务来说是不够的。

内容不可见，请联系管理员开通权限。

3、修改配置

之前考虑到样本不均衡的问题，我们对0标签做了降权，对subject做了加权。在工业级项目中，这个超参要做大量精调，才能有大约十分位的提升，同时也有很多同学有疑惑，给大家减负，就索性不调了，全部重置为1。

内容不可见，请联系管理员开通权限。

4、多GPU并行训练

关系抽取的任务比较难训练，单GPU训练时间会比较长，Kaggle上有T4x2，我们正好可以利用起来，并行训练速度会快很多。

首先，定义一个 BalancedDataParallel 类，来处理多 GPU 负载均衡的问题，这个类的来源是 transformer-xl 的源码。

内容不可见，请联系管理员开通权限。

然后，修改调用逻辑，给两块GPU分配不同的 batch_size，第一块本身负载就比较大，所以分配相对少的数据。

内容不可见，请联系管理员开通权限。

好的，现在本地代码就全部改完了，接下来就是同步到Kaggle，然后重新训练模型了。

本课程为收费课程，购买后可查看！