Transformer P27 替换数据集和Label Smoothing

作者：陈华 • 发布时间：2023-09-26 • 阅读 614

在前面课程当中，我们用一个特别小的自定义数据集，把整个项目的流程走通了。因为数据集特别小，所以模型过拟合了，最终演示的预测效果并不好。但是没关系，接下来，就要换一个真实的数据集，不但不会过拟合，而且需要多个GPU并行训练，才能达到一个基本可用的状态。

这份数据集，是在 github 上面找的，然后稍微加工了一下。机器翻译的数据集，还是挺多的，比如说著名的 WMT 系列（https://statmt.org/），大家也可以去参考，只是样本量会大很多，需要有自己的机器，训练的时长基本要以天为单位，才能跑出一个相对靠谱的效果。

我们课上用的这个数据集，训练样本是6800条，测试样本是680条，内容是政治、经济、军事相关的新闻稿，格式跟前面我们手动创建的数据集一样。

内容不可见，请联系管理员开通权限。

1、导入数据集，并修改配置项

内容不可见，请联系管理员开通权限。

2、Label Smoothing

在论文的5.4节提到，Label Smoothing（标签平滑）的处理，标签平滑其实是一种正则化策略。

论文地址：https://arxiv.org/pdf/1906.02629.pdf

我们训练一个分类模型时，通常会使用独热编码的标签作为目标值，其中一个类别的标签为1，其他类别的标签为0。然而，这种目标值的表示方式存在一个问题，即它对模型的预测非常自信，认为预测结果是绝对准确的。

为了缓解这个问题，可以引入标签平滑（Label Smoothing）的技术。标签平滑通过将目标值中的 1-α 分配给正确的类别，并将剩余的置信度分配给其他类别，从而降低了模型对预测的过度自信程度，提高模型的泛化能力。

内容不可见，请联系管理员开通权限。

好的，这节课主要讲解了数据集的替换，和 Label Smoothing 的设置。下节课，我们要一起学习的内容是动态调整学习率的方法。

本课程为收费课程，购买后可查看！