在视频动作识别中引入top-down的“注意力机制”

引言：

视频动作识别（Action Recognition）一直以来都是计算机视觉领域的一个热门研究方向。传统的视频动作识别技术往往依赖于手工设计的特征抽取器，例如dense trajectories^[1]和part-based/structured models^[2]等，来提取动作的时空特征。随着深度学习的横空出世，这类手工特征抽取器，已经逐渐被深度卷积神经网络——这个强大的自动特征抽取器所替代。如今state of the art的视频动作识别技术^[3]完全使用了深度学习技术，其核心便是双流卷积神经网络（two-stream CNN^[4]，下文简称为双流CNN）。而双流CNN的提出实际上是借鉴了大脑视觉系统中处理信息的双流通路，其中：腹侧通路（被称为what pathway）用于处理物体的形状、颜色等空间信息；背侧通路（被称为where pathway）用于处理与运动、位置相关的信息。

其实，大脑视觉系统中除了采用双流通路来处理，还有自上而下的注意力attention通路。今天我们为大家介绍一篇发表在NIPS2017上的论文《Attentional Pooling for Action Recognition》^【5】：该论文尝试将视觉系统中的自上而下的注意力机制加入到CNN中，使得网络能够自动将注意点放在与动作类别息息相关的感兴趣区域，该方法在MPII等动作数据集上取得了state-of-the-art的成绩。这个例子再次告诉我们：若能够借鉴脑科学中获得的灵感、甚至于一些最基本的思想、合理的使用在传统的神经网络中，深度学习技术仍有提升的空间，甚至收获奇效。

核心思想和实施细节：

如何在CNN中引入所谓的attention呢？作者设计了一个名为attentional pooling的模块，其本质为一个可参与训练学习的池化层，它接在卷积层之后。

在大部分常用的神经网络架构中(例如：Inception、ResNet等)，网络在经过层层卷积操作的最后往往会连接一个平均池化（average pooling）层。平均池化，顾名思义：该操作认为每个池化单元的贡献是一致的；与之相反的最大池化，则是认为只有值最大的单元有贡献，其余单元贡献为0。而事实上往往这样做并不够好。

正是基于此，论文提出了attentional pooling：一种带注意力加权的池化操作，它可以在训练当中自行学习到每个池化单元的权重，我们可以理解为：在attentional pooling中权重越大的池化单元对应着与该动作息息相关的抽象特征，而权重越小的池化单元对应着应当忽略或者会对动作识别产生干扰的其他特征。经过attentional pooling之后，与动作类别无关的特征将会被忽略，而与动作息息相关的特征将会被“放大”，这就好像加入了“注意力”控制那样。

了解了attentional pooling的基本思想，那么我们来看一下作者是如何去实现的。

在实操中，作者受启发于视觉系统中的注意力理论——自顶而下的注意力线索(cues)能够有效的调控自底向上的显著性投影^[6](为了更好的理解注意力加入的计算模型，可见图1)，设计了两组可供学习的权重向量，分别为来自bottom-up的显著性权重向量b和来自top-down的注意力权重向量a，其中。假设待池化的特征投影为（其中n为特征投影的空间尺寸，f为特征投影的通道数量），作者使用矩阵运算实施了对特征投影的bottom-up显著性加权和top-down注意力加权，并在最后融合了两者的响应得到预测得分。

图1 Computational modeling of Top-Down attention^[7]

为了更生动的说明attentional pooling的实施过程，我们来看一下该过程的流程图，见图2。

图2 attentional pooling的实施过程

说到底，加入attentional pooling的本质便是矩阵乘法。相乘的结果解释如下：

代表特征投影X进行了来自bottom-up的显著性加权后的投影图，该投影图与具体的类别无关，其厚度为1，为图2的红色矩形所示；

代表特征投影X进行了来自top-down的注意力加权后的投影图。事实上，不同的类别应该具有不同的注意力权重向量a，我们令类别数量为K，令所有类别的注意力权重矩阵为，则top-down注意力投影图应该改写为下式：

，其厚度为K，为图2中的黄色长方块所示。

那么，作者如何融合两者的效果得到最后的预测得分呢？依然还是矩阵乘法，通过计算下式：，即可。（事实上可以理解为每一片特定类别的注意力投影Xa先和显著性投影Xb进行了逐元素的相乘，再对相乘结果进行求和，得到该类别的预测得分，这个过程是不是和图1好像啊@@）

实验结果展示：

论文在以下几个挑战性和难度均较大的数据集上进行了对比实验：

MPII Human Pose Dataset：是一个人体姿态数据库，其包含15205张图像，总共393个动作类别。该数据集是高度的类别不均衡的，具有较大的识别难度，该数据集采用mAP(mean average precision)作为衡量模型好坏的指标。具体参见：http://human-pose.mpi-inf.mpg.de/

HICO(Humans Interacting with Common Objects)：该数据集的目的是能够识别出图像中出现的动作（关系）描述，每张图像中存在的动作描述大多数不止一个。该数据集同样是高度的类别不均衡的，具有较大的识别难度。具体参见：

http://www-personal.umich.edu/~ywchao/hico/

HMDB51：是一个动作数据集，包含6849个视频片段，总共51个动作类别。具体参见：http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/

论文中，作者只考虑了在处理静态图像的CNN中加入attentional pooling（即使是针对HMDB51视频数据集，也只是对比了处理静态图像的spatial CNN的效果）。

实验结果总结：

论文提出的attentional pooling方法在MPII人体姿态数据库上表现比较突出：超越了之前最好的state-of-the-art大约4个百分点；

在HICO和HMDB51数据集上也与之前state-of-the-art不相上下。

表1为论文提出的attentional pooling（+Pose regularization）在MPII数据集上的实验对比结果。

表1 MPII人体姿态估计数据集上的对比实验结果

可视化结果分析：

在论文中，作者可视化了网络自动学习到的bottom-up显著性区域、top-down的注意力区域以及融合了两者机制的效果。从可视化热图的结果可以看出：

针对正确的类别，Bottom-up、top-down以及两者融合的热图均有明显的激活区域，而对于错误的类别，top-down的热图无显著的激活区域，该结果说明来自top-down的注意力能够正确的定位与类别息息相关的区域；

此外，在bottom-up显著图的基础上结合top-down注意力给出的正确线索，网络能够更进一步定位与正确类别有关的关键区域，忽略其余的干扰，有效的提高网络识别的准确性。

结语

该论文借鉴脑科学的基本知识，提出在动作识别中引入注意力机制，采用简洁的实施过程，改善了原有的动作识别技术。但和人脑相比，论文的结果还远非完美。核心问题是这里的注意力机制和大脑中的注意力相比还相差甚远。从脑科学的角度看，注意力和知识相关，而知识又和长期记忆相关。目前深度学习技术在有关长期记忆和类脑知识方面还显得非常不足，甚至可能有难以逾越的障碍（缺乏类似于大脑的神经动力系统），采用深度学习技术要实现真正智能的动作识别技术仍是任重道远。长期记忆和类脑知识图谱是类脑计算的重要研究领域。我们期待类脑计算领域的新突破，并能和深度学习技术相结合，把类脑的注意力机制引入到现有动作识别技术中，比较彻底地解决视频动作识别问题。

最后，祝大家狗年旺旺旺！！！

参考文献

[1] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013.

[2] B. Yao, X. Jiang, A. Khosla, A. Lin, L. Guibas, and L. Fei-Fei. Human action recognition by learning
bases of action attributes and parts. In ICCV, 2011

[3] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool. Temporal segment networks:
Towards good practices for deep action recognition. In ECCV, 2016.

[4] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In
NIPS, 2014.

[5] Rohit Girdhar Deva Ramanan .Attentional Pooling for Action Recognition.In NIPS,2017

[6] V. Navalpakkam and L. Itti. An integrated model of top-down and bottom-up attention for optimizing
detection speed. In CVPR, 2006.

[7] F. Baluch and L. Itti. Mechanisms of top-down attention. Trends in Neurosciences, 2011.

本文为原创编译，转载请注明出处