WAP PAPER · 研究生 · 中文

Attention Is All You Need

研究生版本,按论文原有结构给出关键公式、超参数与实验细节。

论文信息
作者
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
会议
NeurIPS (NIPS) 2017 · arXiv 1706.03762
模型
Transformer:多头自注意力的编码器-解码器。
论点
仅用注意力即可达到更强翻译质量,并显著提升并行性。

摘要(技术版)

Transformer 去掉循环与卷积,只用注意力进行序列建模,从而在保持或提升翻译质量的同时获得更高的训练并行度。

引言与背景

传统 RNN/CNN 编码器-解码器需要顺序计算,长距离依赖路径较长。论文提出用自注意力替代这些结构,并通过多头机制覆盖不同关系模式。

模型架构

Transformer 层由两部分组成:多头自注意力 + 位置前馈网络,每个子层外面都有残差连接和层归一化。

LayerNorm(x + Sublayer(x))
层数
N = 6(编码器)+ 6(解码器)。
维度
d_model = 512,d_ff = 2048。
注意力头
h = 8,d_k = d_v = 64。

缩放点积注意力

Attention(Q, K, V) = softmax(QK^T / √d_k) V

解码器自注意力使用遮罩以保证自回归生成。

多头注意力

多个头并行计算注意力分布并拼接投影,以捕捉不同关系子空间。

位置前馈网络

对每个位置独立使用两层全连接 + ReLU:Linear(d_model → d_ff) → ReLU → Linear(d_ff → d_model)。

词向量与位置编码

使用正弦/余弦位置编码与词向量相加,使模型在无循环结构下仍能表达顺序。

自注意力的优势

自注意力让任意两个位置的路径长度为 1,且可完全并行计算,显著提升训练效率。

代价是时间与内存复杂度 O(n²)。论文讨论了通过限制注意力范围来处理超长序列的可能性。

训练设置

WMT14 英德 450 万句对、英法 3600 万句对;BPE 词表约 37k/32k。每个 batch 约 25k 源 + 25k 目标 token。

硬件
8× NVIDIA P100 GPU。
训练时长
基础模型 100k 步约 12 小时,大模型 300k 步约 3.5 天。
优化器
Adam:β1=0.9,β2=0.98,ε=1e-9。

学习率在前 4k 步线性 warmup,之后按 step^-0.5 衰减;dropout=0.1,label smoothing=0.1。

实验结果

Transformer (big) 在 WMT14 EN→DE 达到 28.4 BLEU,在 EN→FR 达到 41.8 BLEU,并能在几天内完成训练。

EN-DE:28.4 BLEU
EN-FR:41.8 BLEU
3.5 天(8 卡)

论文还展示 Transformer 在英文成分句法分析上的可行性。

结论与展望

Transformer 证明注意力即可完成高质量序列建模。未来工作包括更高效的注意力、处理超长序列以及拓展到其他模态。

资源

arXiv 摘要 1706.03762
论文 PDF 下载 PDF
NeurIPS 论文页 NIPS 2017
参考代码 Tensor2Tensor

引用

@inproceedings{vaswani2017attention,
  title={Attention Is All You Need},
  author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N. and Kaiser, Lukasz and Polosukhin, Illia},
  booktitle={Advances in Neural Information Processing Systems},
  year={2017}
}