系列文章目录
文章目录
- 系列文章目录
- 注意力机制(或叫注意力池化)
- [**生成数据集**]
- 平均汇聚
- 非参数注意力汇聚
- [**带参数注意力汇聚**]
- 批量矩阵乘法
- 定义模型
- 训练
- 小结
- 练习
注意力机制(或叫注意力池化)
卷积、全连接、池化层都只考虑不随意(不随着自己的意愿,是下意识得行为)线索,也就都是非自主性得。
注意力机制则显示的考虑随意(随着自己的主观意识)线索,随意线索被称之为查询(query)每个输入是一个值(value)和不随意线索(key)的对。通过注意力池化层来有偏向性的选择选择某些输入。
上节介绍了框架下的注意力机制的主要成分 :numref:fig_qkv
:
查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚;
注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。
本节将介绍注意力汇聚的更多细节,
以便从宏观上了解注意力机制在实践中的运作方式。
具体来说,1964年提出的Nadaraya-Watson核回归模型
是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。
import torch
from torch import nn
from d2l import torch as d2l
[生成数据集]
简单起见,考虑下面这个回归问题:
给定的成对的“输入-输出”数据集
{
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
}
\{(x_1, y_1), \ldots, (x_n, y_n)\}
{(x1,y1),…,(xn,yn)},
如何学习
f
f
f来预测任意新输入
x
x
x的输出
y
^
=
f
(
x
)
\hat{y} = f(x)
y^=f(x)?
根据下面的非线性函数生成一个人工数据集,
其中加入的噪声项为
ϵ
\epsilon
ϵ:
y i = 2 sin ( x i ) + x i 0.8 + ϵ , y_i = 2\sin(x_i) + x_i^{0.8} + \epsilon, yi=2sin(xi)+xi0.8+ϵ,
其中
ϵ
\epsilon
ϵ服从均值为
0
0
0和标准差为
0.5
0.5
0.5的正态分布。
在这里生成了
50
50
50个训练样本和
50
50
50个测试样本。
为了更好地可视化之后的注意力模式,需要将训练样本进行排序。
n_train = 50 # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本
def f(x):
return 2 * torch.sin(x) + x**0.8
y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,)) # 训练样本的输出
x_test = torch.arange(0, 5, 0.1) # 测试样本
y_truth = f(x_test) # 测试样本的真实输出
n_test = len(x_test) # 测试样本数
n_test
50
下面的函数将绘制所有的训练样本(样本由圆圈表示),
不带噪声项的真实数据生成函数
f
f
f(标记为“Truth”),
以及学习得到的预测函数(标记为“Pred”)。
def plot_kernel_reg(y_hat):
d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
xlim=[0, 5], ylim=[-1, 5])
d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);
平均汇聚
先使用最简单的估计器来解决回归问题。
基于平均汇聚来计算所有训练样本输出值的平均值:
f
(
x
)
=
1
n
∑
i
=
1
n
y
i
,
f(x) = \frac{1}{n}\sum_{i=1}^n y_i,
f(x)=n1i=1∑nyi,
:eqlabel:eq_avg-pooling
如下图所示,这个估计器确实不够聪明。
真实函数
f
f
f(“Truth”)和预测函数(“Pred”)相差很大。
y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)
非参数注意力汇聚
显然,平均汇聚忽略了输入
x
i
x_i
xi。
于是Nadaraya :cite:Nadaraya.1964
和
Watson :cite:Watson.1964
提出了一个更好的想法,
根据输入的位置对输出
y
i
y_i
yi进行加权:
f
(
x
)
=
∑
i
=
1
n
K
(
x
−
x
i
)
∑
j
=
1
n
K
(
x
−
x
j
)
y
i
,
f(x) = \sum_{i=1}^n \frac{K(x - x_i)}{\sum_{j=1}^n K(x - x_j)} y_i,
f(x)=i=1∑n∑j=1nK(x−xj)K(x−xi)yi,
:eqlabel:eq_nadaraya-watson
其中
K
K
K是核(kernel)。
公式 :eqref:eq_nadaraya-watson
所描述的估计器被称为
Nadaraya-Watson核回归(Nadaraya-Watson kernel regression)。
这里不会深入讨论核函数的细节,
但受此启发,
我们可以从 :numref:fig_qkv
中的注意力机制框架的角度
重写 :eqref:eq_nadaraya-watson
,
成为一个更加通用的注意力汇聚(attention pooling)公式:
f
(
x
)
=
∑
i
=
1
n
α
(
x
,
x
i
)
y
i
,
f(x) = \sum_{i=1}^n \alpha(x, x_i) y_i,
f(x)=i=1∑nα(x,xi)yi,
:eqlabel:eq_attn-pooling
其中
x
x
x是查询,
(
x
i
,
y
i
)
(x_i, y_i)
(xi,yi)是键值对。
比较 :eqref:eq_attn-pooling
和 :eqref:eq_avg-pooling
,
注意力汇聚是
y
i
y_i
yi的加权平均。
将查询
x
x
x和键
x
i
x_i
xi之间的关系建模为
注意力权重(attention weight)
α
(
x
,
x
i
)
\alpha(x, x_i)
α(x,xi),
如 :eqref:eq_attn-pooling
所示,
这个权重将被分配给每一个对应值
y
i
y_i
yi。
对于任何查询,模型在所有键值对注意力权重都是一个有效的概率分布:
它们是非负的,并且总和为1。
为了更好地理解注意力汇聚,
下面考虑一个高斯核(Gaussian kernel),其定义为:
K ( u ) = 1 2 π exp ( − u 2 2 ) . K(u) = \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}). K(u)=2π1exp(−2u2).
将高斯核代入 :eqref:eq_attn-pooling
和
:eqref:eq_nadaraya-watson
可以得到:
f ( x ) = ∑ i = 1 n α ( x , x i ) y i = ∑ i = 1 n exp ( − 1 2 ( x − x i ) 2 ) ∑ j = 1 n exp ( − 1 2 ( x − x j ) 2 ) y i = ∑ i = 1 n s o f t m a x ( − 1 2 ( x − x i ) 2 ) y i . \begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned} f(x)=i=1∑nα(x,xi)yi=i=1∑n