基于深度学习的室内场景智能匹配技术的研究文献综述

 2023-08-04 17:48:22
  1. 文献综述(或调研报告):

1.研究背景

在信息时代,伴随着互联网技术的蓬勃发展,数字图像和视频的传播与存储越来越迅捷,图像视频数据呈爆炸式增长,在这种背景下,人们迫切地需要能够快速地从海量的视觉数据中获取所感兴趣的信息。因此,基于内容的图像检索技术获得了极大的关注,学术界与工业界都对其进行了广泛而深入的研究。而在其中的室内智能场景匹配方面,通常面临文字难以描述,选择不够智能的情况,在存在大量的场景方案时更是难以匹配出理想的方案。因此本次研究主要集中在如何在存在大规模场景方案时,利用图像检索和匹配技术,智能准确地匹配到理想的室内场景。

2.国内外研究现状

早期的图像检索系统通常使用基于文本的查询方式,通过将用户提供的查询文本与互联网网页内容进行匹配,从而检索到与查询文本相关联的图像。

随着计算机视觉技术的发展,基于内容的图像检索(Content.Based Image Retrieval,CBIR)在解析用户查询意图、增强用户体验等方面起到了与文本查询相互补的作用,同时也在很多方面起到了突出的作用。基于内容的图像检索技术起源于20世纪90年代早期,主要涉及的研究内容包括图像内容的表达、特征的索引与量化、高效检索算法、检索结果重排、特征融合与相关性校验等[1]。例如,韩飞 [2]通过提取并比较图片中纹理、颜色、形状等特征来判断图片的相似性;褚奉涛[3]通过对形状特征的分析,找到合理的图像信息表示方法,实现对图像数据库中的图像进行快速准确的匹配与检索;张丹[4]主要研究图像颜色特征和纹理特征, 将这些特征作为检索依据,检索出相似或相关的图像,并在传统算法的基础上改进算法性能,提高算法效率。但是目前,这种方法很难满足人们的需求,其主要原因是提取出来的底层特征对图像内容的表征能力比较有限,因此该方法主要适用于拷贝图像检索,即查询图像与目标图像为基本一致的内容,而与用户对于图片内容的理解之间存在着差距[5]

基于此问题,赵刚[6]介绍了一种视觉词袋模型(Bag-of-Visual-Word,BoVW),作为计算机视觉研究领域的通用的建模方法,具有良好的适用性和实现的简洁性、高效性,在图像标注的应用研究中广泛使用并有出色的表现,而得益于局部尺度不变特征SIFT[7]的提出,该模型的到了更广泛的推广。但由于BoVW模型建模图像标注的量化误差与视觉单词含糊性以及BoVW模型对尺度变化较为敏感等基础性问题的存在,其距离实际应用还有相当的差距。

而在计算机视觉进入深度学习时代后,视觉检索技术也产生了相应的变革。为了解决以上问题,研究人员引入了深度学习方法。深度学习[8]是将原始的数据特征通过多步的特征转换得到一种特征表示,并进一步输入到预测函数得到最终结果。深度学习方法可以通过对图像底层特征的组合,获得高层语义信息,这些高层语义信息有助于增加图像特征的表示能力,从而增强匹配的准确性。Yann LeCun在1989年将BP(Back propagation)算法[9]应用于深度学习模型中,成功在手写识别上取得突破,但这种网络训练速度太慢,同时也受到其他浅层模型如逻辑回归的挑战。直到2006年,Hinton和他的学生Ruslan Salakhutdinov [10]发表了文章,提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化 有监督训练微调,至此开启了深度学习在学术界和工业界的浪潮,同时Hinton认为与人工的特征提取比起来,深度较深的人工神经网络,拥有更加强大的数据提取能力,即可以更容易从数据中学习到本质的数据特征。目前,深度学习采用的模型主要是神经网络模型,其主要原因是神经网络模型可以使用误差反向传播算法,从而可以比较好地解决贡献度分配问题。深度学习技术提出:使用深层神经网络模型,可以模拟人的神经感知机制,对信息进行从低层到高层的逐渐抽象的表达。其中在视觉表征领域,最广泛使用的模型是Lecun等人提出的卷积神经网络模型(Convolutional Neural Network,CNN),LeCun[11]设计了一个7层卷积神经网络结构LeNet一5用于手写字识别,被认为是卷积神经网络技术的开创性工作。其中,CNN[12]是受仿生学中的视觉神经系统启发而设计的人工神经网络结构,其中的卷积核为神经网络的权值,通过对不同图像子区域(局部感受野)使用共享权值的策略进行线性加权,并使用非线性激活函数、池化(Pooling)与采样操作等多层次的处理实现非线性的函数映射。该模型擅长于对图像的内容进行抽象与描述,在图像检索领域获得了广泛的关注与深入的研究。

不同于传统的图像表征方式,深度学习表征侧重于对图像进行语义层面的全局表达,通过一个端到端的模型提取图像中的重要信息,并使用紧凑的特征描述对图像内容进行有效的描述。随着深度学习的快速发展,模型深度也从早期的5sim;10层到目前的数百层,而随着模型深度的不断增加,其特征表示的能力也越来越强,从而使后续的预测更加容易。

但深度学习方法在拥有许多优点的同时,也存在许多缺点。首先,深度学习方法计算量十分巨大,并且深度卷积神经网络的学习需要大量的有监督训练样本,这在很多具体的计算机视觉任务中都是很难实现的。除此之外,不同于传统的基于局部视觉特征的表征方法,深度学习表征在语义层面对图像进行整体的刻画,因而呈现出对局部细节表征不够突出,且对图像空间位置、几何形变比较敏感的特点。同时,基于局部表征的方法可以利用局部特征之间的空间关系对图像匹配进行几何校验,以实现更加精确的匹配,而深度表征则难以利用这一性质对检索性能进行增强[12]

3.本次研究的创新点

①框架与模型构建。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。