论文阅读 (28)：Loss-Based Attention for Deep Multiple Instance Learning (2020)

假设一： 包中至少包含两类实例，即

y_{i,t}=0

和一个其他类别的实例

y_{i,t}\in\{1,\dots,K-1\}

，则：

\tag{4} y_i = \max_{1\leq t\leq n_i}y_{i,t}.

假设二： 包中的每一个实例拥有相同的意义，且一个

L

层带有平均操作网络可以获取实例的低维表示。
给定一个实例

\mathbf{x}_{i,t}

，令

h_{i,t}^l(1\leq l\leq L-1)

表示第

l

层的特征表示。例如

\mathbf{h}_{i,t}^{L-1}=g(\mathbf{h}_{i,t}^{L-2})\in\mathbb{R}^d

是第

L - 1

层的输出和第

L

层的输入，其中

g(\cdot)

是激活函数，

\mathbf{h}_{i,2}^{L-2}

是

L - 1

层的输入。
假设三：

\mathbf{W}\in\mathbb{R}^{d\times K}

和

\mathbf{b}\in\mathbb{R}^K

分别

L

层表示权重矩阵和偏置向量，则神经网络的最终输出为

\mathbf{z}_i = \mathbf{h}_i^{L-1}\mathbf{W}+\mathbf{b}

，其中

\mathbf{h}_i^{L-1}=\frac{1}{n_i}\sum_{t=1}^{n_i}\mathbf{h}_{i,t}^{L-1}

，以及

\mathbf{z}_i\in\mathbb{R}^K

表示包的类别预测向量。
当每个包中的实例的重要性不同时，我们引入注意力机制如下：

\tag{5} \begin{array}{r} \alpha_{i, j}=\frac{\sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i, j}^{L-1} \mathbf{w}_{c}+b_{c}\right)}{\sum_{t=1}^{n_{i}} \sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i, t}^{L-1} \mathbf{w}_{c}+b_{c}\right)} \\ \\ \mathbf{h}_{i, j}^{L-1} \leftarrow \alpha_{i, j} \mathbf{h}_{i, j}^{L-1} \\ \\ \mathbf{h}_{i}^{L-1}=\sum_{t=1}^{n_{i}} \mathbf{h}_{i, t}^{L-1}, \end{array}

其中

\alpha_{i,j}

表示实例

\mathbf{x}_{i,j}

的权重，

\mathbf{w}_c\in\mathbb{R}^d

是是

\mathbf{W}

的第

c

列，

b_c

是

\mathbf{b}

的第

c

个值。
最终的损失函数如下：

\tag{6} \begin{gathered} L=L_{1}+L_{2} \\ =-\log \frac{\exp \left(\mathbf{h}_{i}^{L-1} \mathbf{w}_{k}+b_{k}\right)}{\sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i}^{L-1} \mathbf{w}_{c}+b_{c}\right)} \\ -\lambda \sum_{t=1}^{n_{i}} \alpha_{i, t} \log \frac{\exp \left(\mathbf{h}_{i, t}^{L-1} \mathbf{w}_{k}+b_{k}\right)}{\sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i, t}^{L-1} \mathbf{w}_{c}+b_{c}\right)}, \end{gathered}

其中

L_1

是包损失，

L_2

是融合的实例损失，作为正则项，

\lambda>0

则用于平衡两个优化项。需要说明的是，由于

\mathbf{z}_i=\mathbf{h}_i^{L-1}\mathbf{W}+\mathbf{b}

和

\mathbf{h}_i^{L-1}=\sum_{t=1}^{n_i}\mathbf{h}_{i,t}^{L-1}

，故

z_{i,k}=\mathbf{h}_i^{L-1}\mathbf{w}_k+b_k

，

z_{i,t,k}=\mathbf{h}_{i,t}^{L-1}\mathbf{w}_k+b_k

和

z_{i,k}=\sum_{t=1}^{n_i}z_{i,t,k}

，其中

t\in[1..n_i]

和

c\in[0..K-1]

。
式 (5) (6)主要的启发点如下：
1）实例权重在其标签与所属包不一致时，应该趋近于零；
2）当

L_2\to

时，如果第

j

个实例的

\alpha_{ij}\gg0

且属于第

k

类，则必有

exp(z_{i,j,k})\approx\sum_{c=0}^{K-1}exp(z_{i,j,c})

；
3）如第

r

个实例的

\alpha_{i,r}\to0

，则意味着

\sum_{c=0}^{K-1}exp(z_{i,r,c})

和

exp(z_{i,r,k})

可以忽略。
为了平衡训练过程，我们首次加入集成目标到实例权重。具体的，对于

\alpha_{i,t}

，对于每一个训练批次，将累积作为集成权重

\tilde{\alpha}_{i,t}=\beta\tilde{\alpha_{i,t}}+(1-\beta)\alpha_{i,t}

，其中

\beta\geq0

用于决定集成权重与历史记录的偏离程度。然后，利用一致性代价

\|\alpha_{i,t}-\tilde{\alpha}_{i,t}\|_2^2

来为每个实例制定一致性预测。最终的损失函数如下：

\begin{gathered} L_{p}=L_{1}+L_{2}+L_{3} \\ =-\log \frac{\exp \left(\mathbf{h}_{i}^{L-1} \mathbf{w}_{k}+b_{k}\right)}{\sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i}^{L-1} \mathbf{w}_{c}+b_{c}\right)} \\ -\lambda \sum_{t=1}^{n_{i}} \alpha_{i, t} \log \frac{\exp \left(\mathbf{h}_{i, t}^{L-1} \mathbf{w}_{k}+b_{k}\right)}{\sum_{c=0}^{K-1} \exp \left(\mathbf{h}_{i, t}^{L-1} \mathbf{w}_{c}+b_{c}\right)} \\ +\omega(m) \sum_{t=1}^{n_{i}}\left\|\alpha_{i, t}-\tilde{\alpha}_{i, t}\right\|_{2}^{2} , \end{gathered}

其中

\omega(m)

依赖于训练轮次

m

，用于逐渐提升

L_3

的权重。

秒客网

论文阅读 (28)：Loss-Based Attention for Deep Multiple Instance Learning (2020)

相关文章