Transformer 数学原理 | Dumpling's Blog = My Port

Transformer整体框架

宏观理解

encoders & decoders

在放大看，可以发现编码组件encoders和解码组件decoders是由若干编码器encoder和解码器decoder组成。在Attention Is All You Need中，编码器和解码器的数目为6个($N\times$中的$N$为这里的个数)。当然，这个数目可以改变，只要训练出来模型的效果好就行

encoder && decoder

encoder

与编码器不同的是，解码器在Self-Attention和Feed Forward Neural Network之间加入了Encoder-Decoder Attention层

encoder && decoder

dog:    [1, 0, 0, 0]
apple:  [0, 1, 0, 0]
banana: [0, 0, 1, 0]
cat:    [0, 0, 0, 1]

这种方法编码简单，但是他无法从向量上反映两个词之间的相关性
比如在人类看来，dog和cat属于同一类事务，apple和banana属于同一类事务。apple距离banana的距离要比dog更近，但是在one-hot编码中他们的距离是一样的
另一个弊端是词向量维度过大，编码的向量维度等于单词的个数

Word Embedding

$$
PE_{(pos, 2i)}=sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})\
PE_{(pos, 2i+1)}=cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})
$$

为什么用三角函数，为什么偶数维（2i）用sin，奇数维（2i+1）用cos？
- 由三角函数性质公式
$$
sin(\alpha+\beta)=sin\alpha cos\beta + cos\alpha sin\beta\
cos(\alpha + \beta)=cos\alpha cos\beta - sin\alpha sin\beta
$$
- 故有
$$
PE_{(M+N, 2i)}=PE_{(M, 2i)}\times PE_{(N, 2i+1)} + PE_{(M, 2i+1)}\times PE_{(N,2i)}\
PE_{(M+N, 2i+1)}=PE_{(M, 2i+1)}\times PE_{(N, 2i+1)}-PE_{(M,2i)} \times PE_{(N,2i)}
$$
- 也就是说，$PE_{(M+N)}$可有$PE_{(M)}$和$PE_{(N)}$相互计算得到，也就是说：绝对位置编码中包含了相对位置的信息。