Transformer
概述
Transformer是一种基于attention的 seq2seq
模型,即根据输入的开头,生成预测的后续输出。
参考文章/视频链接
直观解释注意力机制,Transformer的核心 | 深度学习第6章
[1706.03762] Attention Is All You Need (arxiv.org)
模型总体结构
Transformer的模型总体采用的是一个 encoder-decoder
的结构,其结构图如下:
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.