基于聚类分析的电厂风机运行状态评估文献综述

 2023-08-24 15:26:58

文献综述(或调研报告):

最早的聚类思想出现于我国的《战国策.齐策三》一书中,即“物以类聚,人以群分”,聚类这个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区分不同的事物并认识事物间的相似性。

迄今为止,聚类还没有一个学术界公认的定义。这里给出Everitt在1974年关于聚类所下的定义:一个簇内的实体是相似的,不同簇的实体是不相似的;一个簇是测试空间中点的会聚,同一簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离。因此一般所谓聚类,就是将物理或抽象对象的集合组成为由类似的对象组成的多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合,同一簇中的对象尽可能相似,而不同簇中的对象尽可能相异。

近年来,数据挖掘逐渐成为数据库和人工智能等研究领域的一个热点。聚类(Clustering)是数据挖掘中重要的研究课题之一。数据挖掘的重要任务之一就是发现大型数据中的积聚现象,并加以定量化描述。聚类分析就是按照某种相似性度量,具有相似特征的样本归为一类,使得类内差异相似度较小,而类间差异较大。

聚类分析的目标是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用于描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

从机器学习的角度来看,聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分,聚类的数目和结构都没有事先假定,所以聚类分析是一种无监督的学习方法。聚类算法的目的是寻找数据中潜在的自然分组结构和感兴趣的关系。聚类分析则是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的工具。在人工智能和模式识别中,聚类分析亦称为“无先验学习”,是机器学习中知识获取的重要环节。目前聚类己被广泛地应用于各种工程和科学领域,如心理学、生物学、医学等。

没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构。根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法。聚类算法体系结构如下图所示。

传统的聚类方法主要包括:基于划分的聚类、基于层次的聚类、基于网格的聚类、基于密度的聚类和基于模型的聚类五种。

基于划分的聚类中,Macqueen提出的k-平均方法是解决聚类问题的一种经典方法。它的主要优点是算法简单、快速。缺点是对不同的k值可能会导致不同的聚类结果。Kaufman和Roussseeuw提出的PAM(Partitioning Around Medoid)和 CLARA(Clustering Large Applications)算法中,每个类用接近该类中心的对象来表示,因此称之为k-中心点方法。k-中心点方法可以看做是k-平均方法的改进方法,因为中心点不像平均值那么容易被极端数据影响,所以当存在噪声和孤立点数据时,k-中心点方法比k-平均方法更稳定。为了对大规模的数据集进行聚类,以及处理复杂的聚类,基于划分的方法还很多改进算法。如Huang提出k-模(k-modes)方法,它扩展了k-平均方法,用模来代替类的平均值,Lauritzen提出EM(Expectation Maximization)算法不把对象分配给一个确定的簇,而是根据对象与簇之间隶属关系发生的概率来分配对象。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。