Transformer P3 结合数据详解模型结构

作者：陈华 • 发布时间：2023-08-29 • 阅读 609

上节课当中，对照论文中的模型结构图，给大家整体介绍了 Transformer 模型的各个组成部分。但是只看图的话，还是很难对模型有直观的认识，下面我想结合翻译任务中的一条样本，再给大家从数据的角度，拆解一下模型的细节。

Transformer 模型的论文标题叫做《Attention Is All You Need》，也就说明，Attention是这个模型的重点和难点，重点关注几个 Attention 部分就可以了。

论文地址：https://arxiv.org/abs/1706.03762

1、整体目标

2、Embedding

3、Self Attention

4、Masked Attention

用掩码的方式，模拟逐字生成的过程。

5、Encode-Decode Attention

那到现在为止，关于 Transformer 模型结构的理论讲解，也只能到这个程度了。不动手写代码，肯定是无法完全理解模型结构的。所以接下来，我们就带着疑问，去逐层复现模型代码。