Introduction

与RNN、CNN等模型不同,Transformer模型中用到的attention机制无法捕捉输入顺序,这导致其无法区分不同位置的Token,因此我们需要额外引入位置信息到Transformer中,这也就引发了研究者们对位置编码的研究,具体而言,位置编码大体上可以分为以下几类:

  • 绝对位置编码: 直接将位置信息以某种方式编码成向量,加入到输入中。
  • 相对位置编码: 对Attention结构进行微调,使其有能力辨别不同位置的Token
  • 其他位置编码: 包括相对位置编码和绝对位置编码的混合使用等其他不同寻常的位置编码

此外,对于位置编码而言,其长度外推性也是一个十分重要的考量,在此我们将单开一个章节讨论各种位置编码的长度外推性。

阅读全文 »