基于RankSVM的多标记图像分类算法文献综述

 2022-11-27 16:47:49
  1. 引言

近年来,互联网行业迅速发展,为人们带来各方各面的便利,与此同时,互联网快速成长为一个庞大的包含了各种不同类型资源的综合信息库,不仅规模最大,而且包含的资源数量最多,资源种类最齐全。于是,如何从这个巨型库中快速搜索出有效信息,成为了一个迫切而紧要的问题。

互联网上信息资源膨胀十分迅速,想要在持续增长的海量资源中准确筛选出所需信息,就要借助于信息检索技术来进行信息的获取。信息检索的前提是信息有序化,信息获取的基本流程包括:构造文本数据库,建立文档索引,根据查询检索,结果反馈用户。

随着时代发展,人们的日益增长的搜索需要和获取信息的能力之间的矛盾日益突出。这要求信息检索技术也必须是随着时代发展,与时俱进的。早期互联网资源主要是以文本的形式存在,因而检索方式主要是文本搜索。但互联网发展至今,大量的图像、声音和视频资源早己涌入这个巨型资源库,因此,对多媒体资源的检索也应运而生。文献[8]中便详细介绍了网络信息检索技术的基本分类,其中提到了图片检索。

Google早在2008年公布了一篇论文,文中论述的图片搜索和文本搜索的思路是一样的:抽取每张图片的特征,将图片间的相关性定义为特征的相似度,image rank依靠相似图片间的超链接。这种思路在文献[10](2007)中有所体现。

  1. 主体
  2. 图片分类及检索的基本发展过程

前面提到,检索的前提是资源的有序化,图片检索的前提则是图片的有序化,即建立索引。一般来说,一个库通是过手动对图像注释的方式进行索引,然后检索索引的图像集合。然而,手工图像注释是一种花费高且劳动量大的过程,因此文献[7](2003)提出了一种基于训练集的图像标注和检索的自动方法。

随着科技的发展,更多的图片分类方法涌现出来。如,文献[1](2006)提出的一种基于MIMLBOOST和MIMLSVM的场景分类算法。

几年前的图像检索系统通常考虑由对象类(即关键字)组成的查询。不同于此,文献[2](2012)提出使用结构化对象查询进行图像检索——指定场景中应该出现的对象及其空间关系的查询。这个方法考虑了查询中的对象和对检索有用的相关的对象类别。由于在测试图像上没有对象边界框的实况标记,所以将它们表示为模型中的潜在变量。本文提出的学习方法是一个带有潜在变量的排序支持向量机的扩展,称之为潜排序支持向量机(latent ranking SVM.)。近年来,人们对基于图形的转导图像分类产生了浓厚的兴趣。为了解决其存在的问题,人们研究了超图学习。然而,当时存在超图学习方法存在几个问题,于是文献[9](2012)提出了一种自适应超图学习方法用于转导图像分类。

人们对于检索的需求随时代发展而更新,更多的方法被提出。其中,基于多属性查询的图像检索与排序方法对现实世界的大多数应用有益。该方法的传统做法是使用由属性分类器生成的中间表示来描述图像,然后数据库中的图像进按与该描述的相似性排序。但这种模式存在两个问题: 1)如何利用查询属性和非查询属性之间的相关性; 2)如何处理干扰表示--预定义的属性分类器可能不可靠。因此,文献[6](2014)介绍了基于多属性查询的图像检索与排序方法,通过扩展查询表示来发现属性之间的相关性,并对表示施加分组稀疏性来减少干扰数据,并引入ranking SVM来保证排序的一致性。

  1. 多标签分类与多标签学习

多标签分类是指给一个对象可以有多个标签,或者可以属于多个类别。是传统分类的扩展,在传统分类中,一个实例可以与多个标签关联。

研究表明,与传统的分类方法一样,基于实例的基于最近邻估计原理的学习算法可以很好地应用于多标签分类的情况。但由于现有的算法没有考虑到标签之间的相关性和相互依赖性,该算法潜力还没有得到充分的开发。因此,文献[12](2009)提出了一种基于实例学习和逻辑回归相结合的多标签分类新方法,并将这两种方法作为特例进行了研究。这种方法允许捕获标签之间的相互依赖关系,还可以结合基于模型和基于相似性的推理进行多标签分类。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。