{title}{title}

基于全卷积网络的场景理解技术文献综述

李雅俊

（南京理工大学计算机科学与工程学院江苏南京 210094）

摘要：本文介绍了基于全卷积网络的场景理解技术的工作原理，以及研究现状，并给出了个人的总结和未来可能的研究方向。

关键字：全卷积网络，场景理解，语义分割

1 引言

场景理解是人类大脑最惊人的能力之一[12]。同理，机器人服务人类时，首先需要建立对周围环境的认知和理解，然后完成一系列其他任务，因此对环境的认知和理解能力直接影响着机器人性能的优劣[7]。深度学习对计算机视觉领域的当前最新技术产生了重大影响[4]。现在，在各种应用中，许多表现最好的场景理解方法都是围绕深度神经网络建立的，在当前的多层网络时代，也充分利用了卷积计算[16]。全卷积网络是一类丰富的模型，不仅改善了整体图像分类，而且还在结构化输出的本地任务上取得了进展。目前的主流场景理解方法也依赖于全卷积网络[2]。本文是围绕场景理解和卷积神经网络，分析其总体研究现状，并指出当前亟待进行深入研究的一些问题，希望能为该领域的进一步研究提供参考。

2国内外研究现状

场景理解的目标是使得计算机可以像人一样实现对图片中一些主要情境的理解和推断，[10]近年来，场景理解技术取得了研究学者的广泛关注，获得了大量令人瞩目的研究成果，并且，场景理解方法已开始成为先进现实世界系统的基本组成部分[7]。

场景理解主要分为室内场景理解和室外场景理解。Markus等人提出了Cityscapes基准套件和相应的数据集，专门针对城市环境中的自动驾驶而定制，并且宣布了一个新的语义场景标签数据集[3][7][16]，用于郊区交通场景；Caner Hazırbaş提出了一种辨别图形模型，一种称为FuseNet [12]的编码器 - 解码器类型网络[1][12]，解决了室内场景理解的问题，同时可以同时获得RGB [8]和深度信息[12]；Salman Hameed Khan等人提出了一种新的随机现场公式[14]，将RGBD图像中的几何信息集成在其一元，它巧妙地将几何信息与模型层次结构各层次的外观信息结合起来； Alex等人提出SegNet，[1]设计一个有效的道路和室内场景理解架构，在大型且众所周知的数据集上且道路场景理解方面取得了高分。各种场景理解技术正在飞速发展。

对于深度学习来说，场景理解是非常重要的任务。场景理解方法大多数是依赖预先分割的策略进行超像素分割[5][10]，分割出候选区域；然后对分割区域或者对分割区域合并组合的区域进行工程特征提取；利用条件随机场，训练对每一个分割的超像素块产生标签[10][14]，保证了标签的全局一致性。

场景理解首要步骤是进行图像分割。图像分割，简单而言就是给定一张图片，对图片上的每一个像素点分类[9]，是场景理解的一个必不可少的环节，在过去几年中，深度学习在图像分类方面的突破很快转移到了语义分割任务[5]。

在深度网络到来之前，表现最佳的方法主要依靠手工设计的功能来独立分类像素。例如，随机森林[1][11]。基于外观或SfM和[1]外观的特征已经被探索用于CamVid道路场景下的测试，然后，通过使用成对或更高阶的CRF来平滑来自分类器的这些每像素噪声预测以提高准确度。

近年来，随着深度学习的发展，卷积神经网络发展尤为迅速。卷积神经网络模拟人类视觉机制，能够自动从训练数据中学习图像特征表达，[9]学习到的特征无需人工定义，往往能捕捉图像中的隐含信息。在当前的多层网络时代，也充分利用了卷积计算。 Sermanet等人的滑动窗口检测，Pinheiro和Collobert的语义分割，以及Eigen等人的图像恢复[1]。

Alex Krizhevsky等人训练了一个庞大的深度卷积神经网络，将ImageNet LSVRC-2010比赛中的120万个高分辨率图像分类为1000个不同的类别。且在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集中训练了最大的卷积神经网络之一，取得了当时报道的最佳结果[15]。

用于对象分类的深度卷积神经网络的成功使得研究人员利用其特征学习能力来进行分割等结构化预测问题。[1]通过深度学习改进语义分割的主导研究方向是FCN的强大分类能力与结构化预测[2][5]的结合，旨在通过捕获来改进分类和预测标签之间的相互作用。在深度网络与结构化预测相结合的方向上的工作主张使用密集连接的条件随机场来后处理FCNN输出，以便获得更清晰的分割保留图像边界。[9]然后由Zheng[9]等人使用。将DenseCRF与CNN结合到一个回归神经网络（RNN）中，在端到端训练过程中适应DenseCRF后处理[2][6]。

目前的主流语义分割方法也是依赖于全卷积网络。

全卷积网络的想法首先出现在Matan等人的脑海中，它扩展了经典的LeNet以识别数字串，因为Matan等人的网络仅限于一维输入字符串[11]为了使用Viterbi解码来获得这些字符串的输出，Wolf和Platt将信号输出扩展为邮政地址块四个角的检测分数的二维图[1]。

使用convnet的密集预测最近的一些工作已经将预测应用于密集预测问题，包括Ning等人的语义分割[3][11]，Ciresan等人的电子显微镜边界预测，以及Ganin和Lempitsky 的混合信号网/最近邻模型的自然图像，Eigen等人的图像恢复和深度估计。

深度卷积神经网络最近在图像分类任务中展示了最先进的性能，[3][12]在过去的几年里，DCNN将计算机视觉系统的性能推向了各种高级问题的飙升，3包括图像分类，物体检测，细粒度分类等[11]。这些作品中的一个共同主题是，采用端到端方式培训的DCNN比依赖精心设计的表示的系统提供了惊人的更好结果。这种成功可以部分归因于DCNN对局部图像变换的内置不变性，这支持了他们学习数据分层抽象的能力[3]。

对于更近的时间里，很多研究人员已经考虑使用卷积计算的DCNN特征进行密集图像标记。首先是Farabet等人在多个图像分辨率下应用DCNN，然后使用分割树来平滑预测结果[6];Hariharan等人提出在DCNN内连接计算的中间特征图以用于像素分类，并且Dai等人建议按地区提案汇集中间特征地图。 Liang-Chieh Chen等人结合了深度卷积神经网络和完全连接的条件随机场的思想，产生了一种新方法[3][5]，能够产生语义上准确的预测和去尾分割图，同时具有计算效率。

对分割后的图像区域提取特征后，大多数方法依赖于马尔科夫随机场[7]、条件随机场[11]或者其他类型的图模型给每个区域进行标签。景标记使用其所属对象的类别标记图像中的每个像素。Liang-Chieh Chen等人提出了一种方法，该方法使用从原始像素训练的多尺度卷积网络来提取密集特征向量，该特征向量编码以每个像素为中心的多个尺寸的区域。 [3] 随着深度CNN网络在特征学习中的优良性能在机器学习领域中的获得的巨大成功，越来越多的场景理解方法转向了基于深度CNN网络[10]的算法进行。

Farabet等人提出利用卷积神经网络学习场景图像的分层特征进行场景理解。Girshick等人提出了基于R-CNN结构进行物体检测以及语义分割。同年，Long等人提出了一个专门针对逐像素标签任务的全卷积神经网络；Koppula等使用Kinect融合创建一个3D点云，然后使用马尔可夫随机场（MRF）模型对其进行密集标记。[14] Silber-man和Fergus使用具有SIFT特征和3D定位先验的条件随机场（CRF）实现了合理的语义标记性能。 Couprie等人使用ConvNets从RGBD数据中学习特征表示以标记图像，Siddhartha Chandra等人提出了一种深度网络的二次优化方法，可用于预测连续矢量值变量[2]。

目前，场景理解技术取得了巨大的成就并且还在飞速发展，但是关于场景理解技术还有很多需要完善的地方

3总结

场景理解发展迅速，但是还有很多的不足，深度卷积网络的场景理解技术任然面临着巨大的挑战，也必将迎来巨大的发展机遇。

比如城市景观将对是重大的新挑战。将类标签分配给真实世界图像中的每个像素是具有挑战性的，因为对象可能被严重遮挡，出现在各种配置中，并且从不同的摄像机视点和距离观看。此外，室内场景通常由相对大量的相似物体组成，这些物体通常混乱且无序，反映了各种生活方式。

场景解析任务本身的框架也需要改进。首先，像素方面的准确度是对结果的视觉和实际质量的稍微不准确的度量，其次场景解析数据集也需要更好的标签，如何充分地将深度信息纳入模型局部，成对和高阶相互作用的问题也尚未得到充分解决。

参考文献

Badrinarayanan, V., Kendall, A., Cipolla, R.: SegNet: a deep convolutional encoder-decoder architecture for scene segmentation. PAMI PP(99), 2481–2495 (2017)
Chandra, S., Kokkinos, I. Fast, exact and multi-scale inference for semantic image segmentation with deep Gaussian CRFs[A]. In: Leibe, B., Matas, J., Sebe, N., Welling,M.,eds. Computer Vision ECCV 2016[C]. Berlin: Springer-Verlag

2016.402-418

Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic image segmentation with deep convolutional nets and fully connected crfs.arXiv preprint arXiv:1412.7062(2014)
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic image segmentation with deep convolutional nets and fully connected CRFs. Com-put. Sci. 4, 357–361 (2014)
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab:

Semantic image segmentation with deep convolutional nets, atrous convolution，

and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)

Chen, L.C., Papandreou, G., Schroff, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 (2017)
Cordts, M., et al.: The cityscapes dataset for semantic urban scene understanding.arXiv preprint arXiv: 1604.01685（2016）
Couprie, C., Farabet, C., Najman, L., Lecun, Y.: Indoor semantic segmentation using depth information. arXiv preprint arXiv:1301.3572 (2013)
Deng, Z., Todorovic, S., Jan Latecki, L.: Semantic segmentation of RGBD images with mutex constraints. In: ICPR, pp. 1733–1741 (2015)
Farabet, C., Couprie, C., Najman, L., LeCun, Y.: Learning hierarchical features for scene labeling. IEEE T-PAMI 35(8), 1915–1929 (2013)
Gupta, S., Girshick, R., Arbelaacute;ez, P., Malik, J. Learning rich features from RGB-D images for object detection and segmentation[A]. In: Fleet, D., Pajdla, T., Schiele, B.,Tuytelaars, T. ,eds. Computer Vision ECCV 2014[C]. Berlin: Springer- Verlag,2014.345-360
Hazirbas, C., Ma, L., Domokos, C., Cremers, D.:FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[A]. In: Lai, S.-H., Lep-etit, V., Nishino, K., Sato, Y.,eds. Computer Vision ACCV 2016[C]. Berlin: Springer-Verlag,2017.213-228
Hirschmuller, H.: Accurate and efficient stereo processing by semi-global matching and mutual information. In: CVPR, vol. 2, pp. 807–814. IEEE (2005)
Khan, S.H., Bennamoun, M., Sohel, F., Togneri, R.:Geometry driven semantic labeling of indoor scenes[A]. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T.,eds. Computer Vision ECCV 2014[C]. Berlin:Springer-Verlag,2014.679-694
Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Sys- tems, pp.1097–1105 (2012)

Shelhamer,E .Long,J ,.Darrell,T.:Fully Convolutional Networks for Semantic Segmentation.Vol.39 In: Proceedings of IEEE Inter-national Conference on Computer Vision. (2016) 640-651

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于全卷积网络的场景理解技术文献综述

基于全卷积网络的场景理解技术文献综述

1 引言

2国内外研究现状

3总结

您可能感兴趣的文章

登录

基于全卷积网络的场景理解技术文献综述

1 引言

2国内外研究现状

3总结

您可能感兴趣的文章