基于ML-kNN的多标记文本分类算法研究文献综述

 2022-11-27 16:47:58
  1. 引言

在当今信息爆炸的时代,网络上每天都会有大量的数据流量产生,对于这些激增的数据进行归档并管理是一个很大的问题。由于大部分的文本都会有不同的标签,如一个文档的内容可以属于政治,宗教,经济等类别,所以对于将多标签的文本进行正确的分类是一个值得研究的问题。

为了解决这个问题,就需要引入多标签学习的概念。多标签学习起源于文本分类问题的调查,其中每个文档可同时属于若干预定主题。在多标签学习中,训练集由每个与一组标签相关联的实例组成,并且任务是通过分析具有已知标签集的训练实例来预测未知的实例的标签集。为进行更高效的多标签学习,周志华等人提出了ML-KNN[1]的多标签消极学习方法,该方法源于传统的K-最近邻(KNN)算法。详细地说,对于每个未知的实例,首先识别训练集中的K个最近邻居。之后,基于从这些相邻实例的标签集获得的统计信息,即属于每个可能类的相邻实例的数量,利用最大后验(MAP)原理来确定不可见实例的标签集。对三种不同的真实世界多标签学习问题的实验,即酵母基因功能分析,自然场景分类和自动网页分类,表明ML-KNN比起一些成熟的多标签学习算法实现了优越的性能。

  1. 主要内容

1. KNN算法

邻近算法[2],或者说K最近邻(KNN,K-Nearest Neighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。

KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合[3]

  1. 多标签学习算法

多标签学习的研究最初是由于文本分类中遇到的概念模糊性的困难,其中每个文档可能同时属于多个主题(标签)。解决这个问题的一个着名方法是由Schapire和Singer [4]提出的BOOSTEXTER,它实际上是从流行的集成学习方法ADABOOST [5]扩展而来的。其他方法还有McCallum [6]提出了一种多标签文档分类的贝叶斯方法,其中假设混合概率模型(每个类别一个混合成分)生成每个文档,EM [7]算法用于学习在每种混合物成分中的混合权重和单词分布。Ueda和Saito [8]提出了两种类型的多标签文本概率生成模型,称为参数混合模型(PMM1,PMM2)。 Comiteacute;等人[9]扩展交替决策树[10]处理多标签数据,其中Schapire和Singer [11]提出的ADABOOST.MH算法用于训练多标签交替决策树。Gao等人[12]将二元分类器学习的最大品质因数(MFoM)方法[13]推广到多类,多标签文本分类的情况。他们的方法为每个给定的测试示例的每个可能的类别分配统一的得分函数,因此可以应用经典的贝叶斯决策规则来进行多标签学习。Kazawa等人[14]通过将一组主题(标签)视为新类,将文本分类的原始多标签学习问题转换为多类单标签问题。张敏灵等人提出了MLNB算法[15],先用PCA进行特征抽取去除无关冗余属性,然后定义一个损失函数并使用生成算法(GA)得到最适合分类的特征子集,最后利用MLNB-BASIC算法对选择后的数据集进行学习。多标签学习的算法还有很多,各自都有各自的优劣性,其中周志华等人提出的ML-KNN比起一些成熟的多标签学习算法实现了更优越的性能。

  1. ML-KNN算法

多标签KNN的主要思想是对于每一个新实例(instance),距离它最近的K个实例(特征空间中与它的距离最小的K个实例)可以首先得到,然后得到这些实例的标签集合,之后通过最大后验概率准则来确定新实例的标签集合。

下面给出算法的数学计算方法:

首先给出变量的定义变量定义:

k为取最近邻个数

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。