编码器：由多个相同的层组成，每个层包含自注意力机制 (Self-Attention) 和前馈神经网络 (Feed-Forward Neural Network)。编码器的任务是对输入序列（如一个句子）中的每个位置（如单词）进行编码，并为每个位置生成一个对应的隐藏表示 (Hidden Representation)。这些隐藏表示包含了输入序列的语义信息和上下文相关性。
解码器：接收编码器生成的隐藏表示作为输入，并通过自注意力机制和前馈神经网络来生成输出序列（如翻译后的句子）。

02

自注意力机制

是 Transformer 的核心，用于捕捉输入序列中不同位置之间的依赖关系。它允许模型在计算每个位置的表示时关注整个输入序列，而不仅仅是局部窗口。这种全局依赖关系建模能力是 Transformer 优于传统序列模型的关键。

03

位置编码

由于 Transformer 没有使用循环或卷积神经网络来捕捉序列顺序，因此引入了位置编码 (Positional Encoding)。位置编码为序列中的每个位置提供位置信息，以帮助 Transformer 模型理解序列的顺序关系。

04

多头注意力

在自注意力机制中使用了多头注意力 (Multi-Head Attention)，可以从不同的表示子空间捕捉不同的相关性，提高模型的表达能力。

Transformer 架构通过自注意力机制和位置编码，有效地解决了传统序列模型的局限性，在长期依赖建模和并行计算方面表现出色。它在机器翻译、文本生成、阅读理解等多个领域取得了卓越的成绩，成为当前自然语言处理领域的主流模型之一。

Transformer 的发展历程

Transformer 是一种革命性的深度学习模型架构，其发展历程可以追溯到 19 世纪。

早期原型

Transformer 的原型可以追溯到 19 世纪 30 年代和 70 年代，当时人们努力开发更好的感应线圈，逐渐揭示了变压器的基本原理。到了 1870 年代，产生交流电 (AC) 的高效发电机已经可用，人们发现 AC 可以直接为感应线圈供电，无需中断器。

照明系统中的应用

1876 年，俄罗斯工程师帕维尔·雅布洛奇科夫发明了一种基于感应线圈的照明系统，其中一次绕组连接到交流电源，二次绕组可连接到多个"电灯"（电弧灯）。雅布洛奇科夫使用的线圈实际上就是变压器的原型。1878 年，匈牙利布达佩斯的 Ganz 工厂开始生产电力照明设备，到 1883 年，在奥匈帝国已安装了 50 多套交流系统，包括电弧灯、白炽灯、发电机和其他设备。

变压器的发展

这些早期应用为变压器的发展奠定了基础。随着电力系统的不断发展，变压器的设计和制造技术也在不断改进和完善，成为现代电力系统不可或缺的关键设备。Transformer 深度学习模型架构的提出，则是在这一悠久历史的基础上，将变压器的思想引入到人工智能领域，开创了一个新的里程碑。

Transformer 的优势

Transformer 架构在自然语言处理和其他领域取得了巨大成功，其优势主要体现在以下几个方面：

高效建模长期依赖关系

Transformer 通过自注意力机制，可以直接捕捉输入序列中任意两个位置之间的依赖关系，从而更好地建模长期依赖。这使得 Transformer 在处理长序列时表现出色，大大超越了传统的循环神经网络。

并行计算能力强

与序列模型不同，Transformer 不存在递归计算的问题，可以高效地并行计算，从而加快训练速度。这使得 Transformer 能够在大规模数据集上进行训练，充分利用现代硬件的计算能力。

泛化性能出众

Transformer 结构简单、可解释性强，能够更好地捕捉输入数据的内在规律。因此，Transformer 在各种下游任务上都展现出了出色的泛化能力，成为通用的序列建模框架。

多模态融合能力强

Transformer 架构可以轻松扩展到处理不同模态数据，如图像、视频等。通过设计合适的注意力机制，Transformer 能够学习不同模态之间的相关性，实现多模态融合。

可解释性和可控性

与黑盒模型不同，Transformer 的注意力机制赋予了模型较强的可解释性。研究人员可以分析注意力权重，了解模型的内部工作机制。此外，注意力机制也为控制模型行为提供了一种方式。

Transformer 与 RNN 的区别

处理序列数据的方式不同

Transformer 和循环神经网络 (RNN) 都是用于处理序列数据的神经网络架构，但它们在处理序列数据的方式上存在根本区别。RNN 是按照时间步骤的顺序，逐个元素地处理序列数据，同时维护一个隐藏状态向量来存储过去输入的信息。而 Transformer 则是同时处理整个序列，通过自注意力机制捕捉序列中任意两个元素之间的依赖关系，从而实现并行化计算，大大提高了训练速度。

捕捉长距离依赖的能力不同

由于 RNN 需要逐个时间步骤地更新隐藏状态向量，在捕捉长距离依赖关系时容易出现梯度消失或爆炸的问题。而 Transformer 的自注意力机制则能够直接建模任意距离的元素之间的依赖关系，从而更好地捕捉长距离依赖。因此，在处理长序列任务时，Transformer 往往表现出更优异的性能。

模型并行化能力不同

Transformer 的并行化计算能力使其在大规模数据和大型模型上具有明显优势。由于 RNN 需要按时间步骤逐个更新隐藏状态，难以实现高效的并行计算。而 Transformer 则可以充分利用现代硬件（如 GPU 和 TPU）的并行计算能力，从而支持更大规模的模型训练和推理。

应用领域的差异

由于 Transformer 在捕捉长距离依赖和并行化计算方面的优势，它在自然语言处理等领域取得了巨大成功，成为了主流模型架构。而 RNN 由于其简单性和高效性，在一些对计算资源要求较高的应用场景（如嵌入式系统和物联网设备）中仍有一定应用。

Transformer 的应用

机器翻译

Transformer 模型通过自注意力机制、并行计算和多头注意力等关键机制，克服了传统序列模型的限制，已经成为当前机器翻译领域的主流方法。Transformer 能够处理长距离依赖关系，提供更好的上下文理解能力，有效处理不同语言的词序差异，生成流畅和准确的翻译结果。

自注意力机制是 Transformer 的核心，允许模型在计算目标单词的表示时关注整个输入序列的不同位置，捕捉长距离依赖关系。
并行计算使 Transformer 能够同时处理输入序列的所有位置，提高了计算效率。
多头注意力允许模型从不同的表示子空间捕捉不同的相关信息，提高了模型的表达能力。
Transformer 通过位置编码来编码序列的顺序信息，有效处理不同语言的词序差异，生成更加流畅自然的翻译结果。

目标检测

Transformer 模型在目标检测任务中得到了广泛的应用。Tansformer 能够更好地捕捉目标与其上下文之间的关系，同时考虑整个特征图的信息，提高目标检测的准确性。在处理大规模高分辨率图像时，Transformer 具有较高的计算效率，能够更快地进行特征提取和推断。

传统的目标检测模型如 Faster R-CNN 依赖于手工设计的特征提取器，难以充分利用上下文信息。
Transformer 通过自注意力机制，能够自动学习目标与上下文之间的关系，提高检测准确性。
多头注意力机制使 Transformer 能够同时关注图像的不同区域和语义信息，提高对复杂场景的理解能力。
Transformer 的并行计算特性使其在处理高分辨率图像时具有更高的计算效率。

强化学习

Transformer 可以作为强化学习中的状态表示模型，将原始环境观测转换为更高级的、抽象的状态表示。Transformer 能够更好地建模状态之间的关系，提高决策的准确性和鲁棒性，为强化学习任务的成功实现提供强有力的工具和方法。Transformer 还可以同时处理不同状态或动作之间的关系，提高计算效率。

在强化学习中，有效的状态表示对于智能体做出正确决策至关重要。
Transformer 通过自注意力机制捕捉状态之间的长期依赖关系，生成更加抽象和高级的状态表示。
多头注意力使 Transformer 能够同时关注状态的不同方面，提高状态表示的质量。
Transformer 的并行计算特性使其能够高效地处理序列数据，提高强化学习算法的计算效率。
除了状态表示，Transformer 还可以应用于建模动作序列，提高决策的连贯性。

Transformer 的变体

Transformer 模型有多种变体，实现了不同的注意力机制。下面介绍几种主要变体：

线性自注意力变体

这种变体通过快速权重程序或快速权重控制器生成"注意力内部聚焦点"，也被称为具有"线性化自注意力"的变体。与标准变体相比，它在计算注意力时采用了不同的方法。

双向变体

双向变体对基础架构进行了修改，使其能够处理与句子中所有其他单词相关的单词，而不是孤立地处理。这是通过双向掩码语言模型机制实现的，同时考虑了从左到右和从右到左的标记序列，以获得更好的理解能力。

视觉变体

视觉变体模型现在被用于处理图像，方法是将图像转换为序列格式，尽管卷积神经网络在许多实际应用中仍然非常有效和高效。

加性注意力和乘性注意力

加性注意力和乘性注意力在计算注意力分数时使用了不同的方程，是标准注意力的变体。

生成式预训练变体

生成式预训练变体使用堆叠的解码器，在大型文本语料库上使用语言模型目标进行预训练。这些模型可以通过基于前面的单词预测下一个单词来生成新文本。

Transformer 的局限性

Transformer 是一种强大的序列到序列模型架构，但也存在一些局限性：

01

计算资源需求高

由于自注意力机制的复杂性，Transformer 模型通常需要大量的计算资源来进行训练和推理。如果训练数据不足，可能无法充分训练 Transformer 模型，导致性能下降或泛化能力不佳。这使得 Transformer 在处理大规模输入时，计算成本相对较高。

03

位置信息建模有限

虽然 Transformer 在输入序列中引入了位置编码来表示不同位置的信息，但位置信息的建模仍有局限性。这可能限制模型在处理具有明确顺序的任务时的性能。

05

长期依赖建模困难

虽然 Transformer 通过自注意力机制可以捕获远程依赖关系，但在处理极长序列时，仍可能存在捕获长期依赖关系的困难。

02

长序列处理困难

在处理长序列时，每个位置需要与其他所有位置进行计算，导致计算和内存消耗显著增加。这限制了 Transformer 在处理长序列任务时的应用。

04

数据需求量大

由于 Transformer 模型的复杂性，通常需要大量的训练数据来充分训练模型，否则可能出现过拟合或欠拟合的情况，影响模型的泛化能力。

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务，获取更多官方开发资源及培训教程

快速上手训练营
账单设置与查看
动手实操

快速上手训练营
第一课：亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异，以及亚马逊云科技平台的基础设施和部分核心服务，包括亚马逊云科技平台上的弹性高可用架构，架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师：李锦鸿

了解更多 »

了解更多入门学习计划 »

第二课：存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师：周一川

了解更多 »

第三课：安全、身份和访问管理

在这个模块，您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识，责任共担模型以及身份和访问管理服务， Identity and Access Management (IAM) 。同时，通过讲师演示，您将学会如何授权给 EC2 实例，允许其访问 S3 上的资源。

亚马逊云科技技术讲师：马仲凯

了解更多 »

了解更多入门学习计划 »
账单设置与查看
视频：快速完成税务设置

部署时间：5 分钟

开始教程 »

了解更多入门学习计划 »

视频：账户账单信息

部署时间：3 分钟

开始教程 »

视频：如何支付账单

部署时间：3 分钟

开始教程 »

了解更多入门学习计划 »
动手实操
快速上手云上无服务器化的 MySQL 数据库

本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

部署时间：10 分钟

开始教程 »

查看更多教程 »

启动一台基于 Graviton2 的 EC2 实例 

本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

部署时间：5 分钟

开始教程 »

使用 Amazon Systems Manager 进行云资源统一跟踪和管理

在这个快速上手教程中，您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

部署时间：10 分钟

开始教程 »

查看更多教程 »