2022年4月5日,我院赖秋霞老师的论文《Weakly Supervised Visual Saliency Prediction》在IEEE Transactions on Image Processing期刊(IF:11.041)发表。
现有的基于深度学习的视觉注意力预测模型,主要依赖于大规模的人类眼动数据集,来训练模型去拟合从视觉输入刺激到视觉注意力的高维映射。这类全监督数据驱动的方法需要大量繁重的标注,并且没有考虑到视觉注意力的根本机制。 该论文基于各种视觉注意力的认知原理,提出了一个弱监督的视觉注意力模型,将从认知科学中得到的启示建模成可微分的子模块,从而得到一个统一的、端到端可训练的网络框架。具体来说,该论文的模型包含了一下几个受生物视觉启发的重要部分:(a) 通过空间视觉语意编码,从场景理解中获得具有分辨力的空间信息;(b) 通过物体级别的语意编码和物体关系信息来建模物体在视觉注意力分配中起到的作用;(c) 考虑到视觉刺激处理中的“胜者全得”机制,我们通过使用基于softmax的模块来建模物体之间的竞争关系;(d) 最后,该论文通过学习调节中心先验来模拟视觉注意力的空间分布偏置。此外,该论文提出了新颖的损失函数,从图像语意、显著性先验知识、自信息压缩三个来源获取监督信息。实验表明,该论文的方法取得了有希望的结果,甚至超过了许多全监督的深度学习算法。该论文的方法不仅在减少数据标注依赖方向上迈进了一大步,而且提供了对视觉注意力机制更全面的理解。