视频场景理解与分析研究文献综述

 2023-08-07 16:32:47

文献综述(或调研报告):

在参考了任务书中的相关文献,包括其中IBM Research的Daniel Rotman等人为主的大量相关研究之后,我对视频场景分割及检测尤其是基于多模态的情况下有了比较深入的了解。

近些年来,深度卷积神经网络在图像场景检测领域迅速普及,而且相较于传统方法取得了很好的效果,基于深度学习的图像场景检测也逐渐一个统一的深度网络框架。在图像场景检测任务取得了不错的效果之后,深度学习又被迁移到基于视频的场景检测任务中。基于视频的场景检测任务相比于静态图像的场景检测任务,场景的颜色、外观、形状、尺度等属性会随着时间发生变化,在检测过程中如何保持时间顺序上目标的一致性从而对整个场景进行理解识别,这是视频场景检测任务的难点之一。

视频作为视频场景检测的对象,其具有固有的层次结构。在最底层是帧,它们组成了一系列静止图像的视频。镜头是一种基本的结构片段,它被定义为由单个相机不间断拍摄的帧序列,而镜头处理现在被认为是一种基本已解决的任务。场景是位于镜头之上的层次,一个场景可以由它的内容来定义,而不是由它的技术属性来定义。视频场景检测是对异构视频内容进行有效分析的一个重要过程,其任务是对视频进行语义分段即将视频划分成语义连贯的场景,是许多视频分析任务的重要而有用的预备步骤。

实现视频场景检测算法的基本目标是识别在时间上相互接近的语义相干镜头。现有的大多数场景检测算法方法大致可以分为三类:基于规则的方法(专业电影制作中基于场景结构方式的方法)、基于图形的方法(以图形表示方式安排镜头的方法)和基于聚类的方法。基于规则的方法考虑的是专业电影制作中场景的构成方式。Liu等人在提出了一种基于视觉的概率框架[11],其模仿电影创作过程,通过描述上下文动态和学习场景模型来检测场景,首先使用光谱聚类将镜头聚类成符号组。然后,使用改进版的Needleman-Wunsh算法rithm,通过比较连续的不重叠镜头窗口来检测场景边界,该算法考虑了镜头集群的视觉相似性和视频中连续标签的频率。这种方法的缺点是,当导演有意打破电影剪辑规则,或者两个相邻的场景相似,遵循相同的规则时,往往会失败。在基于图的方法中,镜头以图的形式排列,然后通过划分图来聚集成为场景。文献[12]中提出的镜头转换图(Shot Transition Graph, STG)是这一类别中最常用的模型之一:这里每个节点表示一个镜头,镜头之间的边缘通过镜头相似性进行加权。颜色和运动特征用来表示镜头相似度,然后通过应用归一化的切分来划分图的子图。最后一种聚类法是一种常见方法,其将视频分成多个镜头,然后使用标准的聚类技术对镜头进行聚类。使用这种方法,可以在不保持时间一致性的情况下解析视频,即不相邻的镜头可以被认为是一个场景的一部分。

同时,本课题还采用了多模态融合的方法进行场景检测。每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。因此,多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归)。按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类,分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。多模态机器学习的主要应用有: 视觉-音频识别(Visual-Audio Recognition)、多模态情感分析(Multimodal sentiment analysis)、手机身份认证(Mobile Identity Authentication)等。

对于镜头和场景检测与分割,意大利的Lorenzo Baraldi等人在文献[8][9]中提出了一种基于层次聚类的场景检测算法,以及一种非常快速的镜头分割方法。该方法通过计算一个扩展的差分度量来识别镜头边界,该度量量化了视频中两个不同位置的内容变化,其中位置可以是帧,也可以是半帧。在检测到镜头边界后,通过分组相邻的镜头来识别场景,能够检测出突变和渐变,并且执行时间非常短。对于场景分割, Lorenzo Baraldi等人提出了一种基于局部图像描述符和时间聚类技术的视频自动分割模型。其依赖于HSV-SIFT描述符对关键帧的描述,利用它们的协方差矩阵在欧几里德空间中的投影进行总结,并采用联合分割和聚类输入视频的时间聚类方法,实现了宽频带视频进行场景检测。Daniel Rotman等人在文献[5]中提出了一种用于时态视频分析的系统tvan_temporal video analyzer(TVAN),旨在实现高效和健壮的视频描述和搜索。其主要组成部分包括: 时间视频分析、高效的视觉识别和健壮的场景描述。他们利用其对视频进行分析,构建了一个视频搜索引擎,允许用户在大量视频中发现自己感兴趣的视频。

对于视频的多模态融合,Daniel Rotman等人在文献[1]中提出了一种中间融合的方法,联合使用来自所有模态的信息,同时得到一个单一的划分结果,避免了延迟融合导致的信息过早损失和非最优划分。他们将场景检测任务看做是为一个通用的优化问题,然后使用一种新的动态规划方案来解决它,该算法具有无参数且鲁棒性高的优势,并适用于多种视频类型。

综上所述,与单模态相比,基于多模态的方法在挖掘了视频图像、音频和文本等信息模态并进行融合之后,再对长视频进行分析、场景分割和检测的结果具有明显的优势。

参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。