- 文献综述(或调研报告):
数据挖掘是人们长期对数据库技术进行研究和开发的结果,是一个逐渐演变的需求推动的过程。当人们对知识获取的研究经历了机器学习、专家系统和人工神经网络三个几经反复的阶段后,在1989年举行的第十一届国际联合人工智能学术会议上,为了强调“知识”是数据驱动发现的最终产物,首次用“数据库中的知识发现”(KDD:Knowledge Discovery in Databases)这个词来命名一种新的知识获取技术。
设备的状态监测和故障诊断技术最早起源于美国。它是随着计算机技术和电子技术的飞速发展,为适应工业生产的现代化和机器设备的大型化、连续化、高速化、自动化而迅速发展起来的一门新技术。它以高等数学、物理、化学和电子技术为基础,是一门涉及现代控制论、信号处理与模式识别、计算机科学、人工智能等多门学科的综合性技术。随着诊断技术的不断发展,目前已广泛用于载运工具、机械制造、电力设备等诸多领域。
我国故障诊断技术起步较晚,但发展较快。大机组设备故障诊断技术在我国的发程大致有三个阶段:FFT分析仪阶段,计算机辅助监测分析阶段,网络化监测诊断阶段。20世纪90年代以来,大机组监测系统的一个重要发展方向就是网络化。在监测系统开发方面,人们已经进行了大量的研究,并开发了许多相应的仪器设备。以个人计算机为基础开发的在线监测系统,由于性价比高、柔性好、开发周期短,近年来在国内外日益受到重视。
20世纪80年代后期发展起来的数据挖掘(DataMining)首先在银行、电信、保险、交通、零售等商业领域成功应用,随后便开始向其他领域渗透。它在对海量高维数据进行分析方面显示出强大的生命力。
对于电力企业而言,越来越多的数据被 DAS 和 DCS 系统存储到实时数据库中,日积月累的历史数据占据着庞大的存储空间,这些数据背后往往蕴涵着丰富的知识,仅靠经验很难理解这些数据之间的关系,应用数据挖掘的方法从系统的历史数据库中提取相应的故障诊断知识应该是一种有效途径,也是很有现实意义和研究价值的问题。
关联规则挖掘是数据挖掘领域中重要的研究方法之一,广泛应用于医学、金融、互联网等多个领域。最初的关联规则挖掘是针对购物篮分析问题提出的,其目的在于发现交易数据库中不同商品之间的关联关系,获得有关顾客购买模式的一般性规则。通过这些规则可以指导商家合理地安排进货、库存及货架设计。Agrawal等人⋯提出了最早的基于频繁项集的经典关联规则Apriori算法;之后,国内外研究人员都对关联规则挖掘问题进行了深入研究。相关工作包括对基于Apriori算法的优化、并行关联规则挖掘、数量关联规则挖掘以及关联规则挖掘理论的探索等。
关联规则挖掘经过长期的研究与发展,已在频繁模式挖掘算法的设计及优化方面日趋成熟,广泛应用于互联网、金融、生物信息等领域。但该领域在未来研究的方向是仍具有挑战性的工作:设计更高效的挖掘算法;实现用户与挖掘系统的交互,开发易于理解的可视化界面;结合特殊领域完善扩展型挖掘算法,如周期模式挖掘等;拓展关联规则的应用领域。
因此,将数据挖掘技术与设备状态的监测和故障诊断相结合,有利于突破传统状态监测和故障诊断系统知识获取的瓶颈,使整个系统的开发和应用进入一个崭新的发展阶段。
随机森林(Random Forest,简称RF)作为新兴起的、高度灵活的一种机器学习算法,拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。
当然,数据挖掘永远不会替代故障诊断领域专家所起的作用,它只是提供了一个强大的工具,只是帮助用户更深入、更容易地分析数据,它并不能告诉某个模型对用户的实际价值,而且数据挖掘中得到的模型必须要在现实中进行验证。每个设备可能都已经具有一些重要的诊断模型,这些模型可能是领域专家花了很长时间,作了很多调查和实验,甚至是经过很多失误之后得来的。数据挖掘要做的工作就是要使这些模型得到得更容易、更方便,同时又有根据。不难看出,数据挖掘与传统的科学方法(在假设和理论的指导下进行数据分析) 不同,它是一种在数据驱动下发现已有理论不能预测模式的新方法,它在工业设备状态监测和故障诊断系统的开发和应用中有广阔的应用前景。可以相信,随着理论研究和实际应用的逐步深入,数据挖掘理论必将促使现代工业设备状态监测和故障诊断技术进入一个新的发展阶段
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。