- 文献综述:
序言
多标签分类是计算机视觉中的一个基本任务,其目标是预测图像或视频中呈现出来的一组标签集合。相比仅对一张图像预测一个标签的单标签分类,它在很多领域上具有更高的应用价值。一张图像中被赋予的多个标签,首先要与图像上的多个区域建立起显式关系,也即空间依赖性。这一需求可以通过注意力机制生成的注意力图来实现。然而,标签之间显然还有着语义上的依赖关系,因为相关度高的标签往往更容易在同一张图上出现,而这仅靠注意力机制并不能实现。此外,还可以通过图像的深度信息,来构造点云图,寻求各像素间的3D依赖关系。最近,有大量的研究开始对图神经网络在计算机视觉中的应用感兴趣,同时也在寻求其显式建模依赖关系,指导改善注意力机制关注重要区域的能力。
本综述将自底向上出发,首先阐述与分析注意力机制与图神经网络两种工具各自在计算机视觉领域中的相关工作与定位,试图梳理出两者使用方法的共性,进而展现应该通过何种手段结合起来,提高多标签分类模型的性能。
注意力机制
注意力机制最开始使用于自然语言处理的翻译任务中,目前在计算机视觉中已有广泛的应用。最初,注意力机制主要用于文本序列的辅助聚焦中,但随后Ashish Vaswani et al. [1]指出注意力机制完全可以取代RNN,通过Self-Attention所构成的Transformer结构来处理问题。与之相似地,Long X. et al. [2]在视频分类中提出了Attention Cluster机制,通过Attention取代RNN分析时序信息,通过Attention unit的聚合来代替CNN获取局部特征,取得了良好的效果。此外,鉴于CNN在发现局部特征上的优秀能力,以及其十分有利于并行化的性能特点,Adams Wei Yu et al. 2018 [3]提出了用Transformer作全局序列处理,CNN作局部特征发掘的QANet,在准确率与性能上都达到了十分高的水准。
注意力机制的另一个应用场景是用于多模态机制中。一种模态代表一种不同的信号范畴,如视频中就至少拥有视、声、帧三种模态。模态也可以通过自己构造而得,如早期Kahou S. E. et al. 2016 [4]在表情识别的工作中,除了图像、音频、时空三种模态外,还为嘴附近的视觉特征定义了一个模态。为了将不同的模态结合使用得到更好的效果,需要设计一种良好的聚合(Fusion)方法。Xiang Long et al. 2018 [5]提出了Keyless Attention,它利用注意力机制来使任意一种模态作为其他模态的指导,从而得到最终混合后的注意力图并输出,在视频分类任务上取得了良好的效果。
可以看到,注意力机制擅长于建模全局间的依赖关系,例如序列与图像中的感兴趣区域,以及多个不同模态之间的整体联系。但是,我们需要为注意力机制提供丰富的局部信息,以持续地优化性能。此外,还需要额外的工具来取得诸如标签、图像之间的局部关系。
图神经网络
图神经网络能够对图结点之间的依赖关系进行建模。相对此前一贯的平铺向量而言,它能接受结构化的数据作为输入,同时由于良好的性能和可解释性,已经成为一种广泛应用的图分析方法,现有许多工作试图探索图神经网络在计算机视觉任务中的应用场景 [6][7]。
目前,其中一个研究方向是用图神经网络发掘标签之间的依赖关系。Chen Z M et al. 2019 [8]利用图卷积网络构造了标签之间的一个有向图,进而得到了一个标签的图嵌入向量,用以校正表示学习中得到的图像特征向量,输出多标签的预测结果。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。