面向高中读者的清晰版讲解,按论文原有顺序展开:动机 → 架构 → 训练 → 结果。
论文提出 Transformer:一个只用注意力的序列模型。它去掉循环和卷积,让训练可以并行,速度更快,翻译效果也更好。
机器翻译需要把一串词转换成另一串词。传统 RNN/CNN 必须按顺序处理词,速度慢,而且很难捕捉远距离的依赖。
注意力机制已经被证明很有用,但通常还是依赖 RNN。本论文问:如果只用注意力,会不会更好?
整体仍是编码器-解码器,但每一层只由注意力和小型前馈网络组成。基础模型中,编码器和解码器各 6 层。
每个词生成 Q/K/V 向量,通过 Q 与 K 的相似度得到权重,再对 V 做加权求和。
基础模型用 8 个头并行,每个头关注不同关系,比如语法或语义。
注意力后,每个位置再过一个两层小网络,增强表达能力。
因为没有循环结构,模型用正弦/余弦位置编码加入顺序信息。
自注意力让任意两个词只需要一步就能相互联系,并且可以一次性并行计算。
训练数据来自 WMT14:英德 450 万句对,英法 3600 万句对,并使用 BPE 进行子词切分。
优化器使用 Adam,学习率先 warmup 4k 步再衰减;dropout 和 label smoothing 都是 0.1。
Transformer (big) 在英德翻译上达到 28.4 BLEU,在英法翻译上达到 41.8 BLEU,并且训练更快。
论文还将 Transformer 用于英文成分句法分析,显示其能推广到翻译之外的任务。
局限:注意力对长序列成本高,作者建议探索限制注意力范围,并尝试其他模态的应用。
@inproceedings{vaswani2017attention,
title={Attention Is All You Need},
author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N. and Kaiser, Lukasz and Polosukhin, Illia},
booktitle={Advances in Neural Information Processing Systems},
year={2017}
}