Transformer

Created2024-09-04|Updated2024-11-15|Transformermachine_learning

|Post Views:

概述

Transformer是一种基于attention的 seq2seq 模型，即根据输入的开头，生成预测的后续输出。

参考文章/视频链接

直观解释注意力机制，Transformer的核心 | 深度学习第6章
 [1706.03762] Attention Is All You Need (arxiv.org)

模型总体结构

Transformer的模型总体采用的是一个 encoder-decoder 的结构，其结构图如下：

Author: Eric Li

Link: https://www.ericli.vip/2024/09/04/Transformer/Transformer/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.