研究生版本,按论文原有结构给出关键公式、超参数与实验细节。
Transformer 去掉循环与卷积,只用注意力进行序列建模,从而在保持或提升翻译质量的同时获得更高的训练并行度。
传统 RNN/CNN 编码器-解码器需要顺序计算,长距离依赖路径较长。论文提出用自注意力替代这些结构,并通过多头机制覆盖不同关系模式。
Transformer 层由两部分组成:多头自注意力 + 位置前馈网络,每个子层外面都有残差连接和层归一化。
解码器自注意力使用遮罩以保证自回归生成。
多个头并行计算注意力分布并拼接投影,以捕捉不同关系子空间。
对每个位置独立使用两层全连接 + ReLU:Linear(d_model → d_ff) → ReLU → Linear(d_ff → d_model)。
使用正弦/余弦位置编码与词向量相加,使模型在无循环结构下仍能表达顺序。
自注意力让任意两个位置的路径长度为 1,且可完全并行计算,显著提升训练效率。
WMT14 英德 450 万句对、英法 3600 万句对;BPE 词表约 37k/32k。每个 batch 约 25k 源 + 25k 目标 token。
学习率在前 4k 步线性 warmup,之后按 step^-0.5 衰减;dropout=0.1,label smoothing=0.1。
Transformer (big) 在 WMT14 EN→DE 达到 28.4 BLEU,在 EN→FR 达到 41.8 BLEU,并能在几天内完成训练。
论文还展示 Transformer 在英文成分句法分析上的可行性。
Transformer 证明注意力即可完成高质量序列建模。未来工作包括更高效的注意力、处理超长序列以及拓展到其他模态。
@inproceedings{vaswani2017attention,
title={Attention Is All You Need},
author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N. and Kaiser, Lukasz and Polosukhin, Illia},
booktitle={Advances in Neural Information Processing Systems},
year={2017}
}