基于聚类的轨道交通运行图案例库规模控制技术文献综述

 2022-11-30 15:52:40

{title}{title}

南 京 理 工 大 学

毕业设计(论文)开题报告

学 生 姓 名:

黎桥宇

学 号:

915107830113

专 业:

信息管理与信息系统

设计(论文)题目

基于聚类的轨道交通运行图案例库规模控制技术

指 导 教 师:

哈进兵

2019 年 1 月 11 日

文 献 综 述

研究背景和意义

自1965年第一条地铁轨道线在京开工建设以来,中国地铁工程技术已经走到了第55个年头,取得了飞跃性的进步。到 2017年底,全国城市轨道交通运营线路达到 5033 公里,客运量 185 亿人次,在建线路 6200 多公里,成为世界城轨交通大国。其中拥有地铁运营线路的城市 31个,运营总里程 3883 公里,城市之多和线路之长都已位居世界首位。2017 年中国内地城轨交通完成建设投资 4762 亿元,在建线路长度 6246 公里,在建项目可研批复投资额累计 38756 亿元。截至 2017 年末,共有 62 个城市的城轨交通线网规划获批(含地方政府批复的 18 个城市),规划线路总长 7321 公里[1]

但是我们也注意到,随着城市轨道交通的不断发展,新的挑战和风险也随之而来。第一,随着地铁系统越来越复杂,运营里程越来越长,能耗问题日益凸显。轨道交通具有运量大、速度快、准点率高和占地面积小等特点,能有效缓解城市交通压力。但是由于地铁的运量大,其运营能耗也大,给企业带来了巨大的成本和能源压力。第二,安全应急问题,地铁客流量巨大,人群密度高,面临不同的安全问题时,如何迅速处置,疏散人群不能依靠临时处置,必须提前建立好一套行之有效的处理方法、第三,效率问题,在诸如北京,上海,广州和深圳等超大城市,日均出行人数巨大,如何保证市民的有效出行也是我们必须解决的重大课题。

本文研究的课题便是基于聚类分析的方法,对城市轨道交通运行图案例库进行合理地增加,删除或分层,建立起一个能够快速检索的运行图案例库,使地铁管理人员能够通过输入当前轨道交通运行特征参数快速地获得适应当前情况的运行图解决方案。由此来解决以上提到的三类重要问题。

聚类分析技术

基本概念

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类,依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

常用聚类分析方法

      1. K-Means聚类算法

k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。

k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:

E=

  这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值[9]。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下:

  输入:包含n个对象的数据库和簇的数目k;

  输出:k个簇,使平方误差准则最小。

  步骤:

  (1) 任意选择k个对象作为初始的簇中心;

  (2) repeat;

  (3) 根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;

  (4) 更新簇的平均值,即计算每个簇中对象的平均值;

(5) until不再发生变化。

      1. 层次聚类算法

根据层次分解的顺序是自底向上的还是自上向下的,层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。

凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。四种广泛采用的簇间距离度量方法如下:

最小距离:

最大距离

平均值的距离:

平均距离:

这里,是两个对象p和质检的距离,簇的平均值,是簇中对象的数目。

这里给出采用最小距离的凝聚层次聚类算法流程:

(1) 将每个对象看作一类,计算两两之间的最小距离;

(2) 将距离最小的两个类合并成一个新类;

(3) 重新计算新类与所有类之间的距离;

(4) 重复(2)、(3),直到所有类最后合并成一类。

      1. SOM聚类算法

SOM神经网络[11]是由芬兰神经网络专家Kohonen教授提出的,该算法假设在输入对象中存在一些拓扑结构或顺序,可以实现从输入空间(n维)到输出平面(2维)的降维映射,其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。

  SOM网络包含输入层和输出层。输入层对应一个高维的输入向量,输出层由一系列组织在2维网格上的有序节点构成,输入节点与输出节点通过权重向量连接。学习过程中,找到与之距离最短的输出层单元,即获胜单元,对其更新。同时,将邻近区域的权值更新,使输出节点保持输入向量的拓扑特征。

  算法流程:

  (1) 网络初始化,对输出层每个节点权重赋初值;

  (2) 将输入样本中随机选取输入向量,找到与输入向量距离最小的权重向量;

  (3) 定义获胜单元,在获胜单元的邻近区域调整权重使其向输入向量靠拢;

  (4) 提供新样本、进行训练;

  (5) 收缩邻域半径、减小学习率、重复,直到小于允许值,输出聚类结果。

      1. FCM聚类算法

1965年美国加州大学柏克莱分校的扎德教授第一次提出了lsquo;集合rsquo;的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析[12]。

FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

设数据集X={},它的模糊c划分可用模糊矩阵U=[]表示,矩阵U的元素表示第j(j=1,2,hellip;,n)个数据点属于第i(i=1,2,hellip;,c)类的隶属度,满足如下条件:

目前被广泛应用的聚类准则为取类内加权误差平方和的极小值,即:

其中V为聚类中心,m为加权指数,

  算法流程:

  (1) 标准化数据矩阵;

  (2) 建立模糊相似矩阵,初始化隶属矩阵;

  (3) 算法开始迭代,直到目标函数收敛到极小值;

(4) 根据迭代结果,由最后的隶属矩阵确定数据所属的类,显示最后的聚类结果。

研究现状

案例库推理技术

案例推理是通过寻找与之相似的历史案例,利用已有经验或结果中的特定知识即具体案例来解决新问题。它通过寻找与之相似的历史案例,把它重新应用到新问题的环境中来。也就是采用检索历史案例,获得与当前工况相似特征参数的匹配案例,根据具体情况对匹配案例解决方案进行修订,然后应用于当前工况。

案例推理通常被分为两类:解释型的案例推理和问题解决型的案例推理。解释型的案例推理将先前的案例作为参考来对当前的情况进行分类,描述和解释;而问题解决型的案例推理则利用以前的案例来为当前的问题提出建设性的解决方案。

  1. 解释型案例推理

解释型的案例推理是通过将案例库中已经分类的案例和新的问题作一个对比,从而对这个新的问题形成一个判断或做一个分类。例如,在美国的法律系统中,解释型的案例推理在解释法律条款和应用法律方面就有着广泛的应用。另外,解释型的案例推理在诊断领域也有着很多应用,因为一个新的病例可以通过将当前的症状和以往的案例进行比较,从而得到最好的诊断。

  1. 问题解决性案例推理

这种类型的案例推理的目标就是将以往的解决方案应用于新的问题,经过修改后形成与新问题相对应的解决方案。例如,基于案例的设计系统,计划系统都是通过检索并对案例库中的相似案例进行适应性匹配来获得当前问题的解决方案的。和解释型案例推理一样,问题解决型案例推理也包含环境评估,案例检索以及相似度评估等几个步骤。另外,人们还经常根据新案例与案例库中已有的案例间的相似以及不同之处来确定如何将针对已有案例的解决方案进行调整,以适应新的环境和问题。

目前国内案例推理的应用研究主要有,华东交通大学的叶春华和罗世民探析了城市轨道交通案例推理应急救援方面的问题[2],提出基于案例库推理来产生科学有效的城市轨道交通突发事件应急解决方案。兰州交通大学的张振海等也提出借鉴CBR模型的思想,将基于案例推理和应急预案、专家规则相结合的方法应用到城市轨道交通应急决策支持系统当中[3]。武汉理工大学的邓守城等和三峡大学的石兵运用案例推理的方法,提取案例的特征属性,定义案例的结构化表示框架,根据事件信息的属性类型,定义不同的相似度计算方法来解决水上交通突发事件应急响应资源需求预测问题[4]。浙江师范大学的李磊等将案例推理方法运用到铁路行车事故应急决策方法研究中,首先对铁路行车事故的案例表示、案例属性体系进行描述;其次,针对铁路行车事故案例属性值类型,考虑数值型、有序枚举型、无序枚举型、区间数型及模糊数型5种形式,给出不同形式属性值的局部相似度计算模型;然后,通过计算当前铁路行车事故与事故案例的各属性相似度,建立全局相似度计算模型;再次,提出当前铁路行车事故属性缺失时的全局相似度计算模型;最后,使用案例验证该方法可行且有效[5]。南京理工大学的张彦杰利用案例推理技术研究轨道交通能耗管理决策问题,提出了一种三价交叉综合权重确定方法,结合已有的专家层次分析法和熵值法等对相关要素权重进行计算和调整[6]。南京理工大学的肖连杰进行了基于案例的城市轨道交通应急系统研究,采用基于欧式距离隶属函数的案例相似度计算方法,对突发事件案例属性相似度进行计算,得出案例间属性的局部相似度。运用层次分析法、贿值法和灰色关联理论确定案例属性的权重,采用加权近邻算法确定突发事件案例的全局相似度[7]

外文文献中关于案例推理的相关应用研究有,Hongru Li等提出了一种基于自组织竞争神经网络与最近邻算法相结合的搜索方法。以及一种应用于检索的数据预处理方法。给出了基于自组织竞争神经网络与最近邻相结合的搜索方法的实现过程[8],Wonil Kim等将案例推理的方法运用到战术层面的军事任务决策中,将CBR应用于作战策略系统,设计出一个在当前作战情况下最适合使用的策略系统。在这样的体系中,当班长们聚集在一起进行一个班级的军事行动时,班长们将按照指定的计划行动,以达到最终的目标。这一过程应该包括针对攻击、伏击和战略机动等行动的军事战术[9]。Xi Zhou等将案例推理用于对台风问题的对策研究,在对台风实际案例调查的基础上,提出了一种明确、综合的多要素空间案例界定方法。利用地理信息系统的空间分析功能和数据管理能力,探讨了空间感知的CBR方法。最后,介绍了该方法在广东省应急平台系统验证中的应用框架。

案例库维护

案例库维护就是建立符合业务需要,包含必要信息的数据结构作为案例单位,并按照一定的策略对案例集合中的案例进行增加,删除或者是分层,整理等,以便于用户对案例库的检索和使用。针对不同行业,同行业中的不同情况,就要根据具体情况和具体需求建立和维护案例库。当案例库规模不断扩大时,也有必要根据一定的算法和策略对案例库进行分类,分层处理,以便于快速检索和查找,协助用户迅速解决问题。

例如在基于案例推理的铁路行车事故应急决策方法研究当中,将案例转化为计算机可存储和识别的数据结构。案例表示为3个部分。

一级属性

二级属性

属性描述

属性值类型

气象条件

天气

晴、多云、阴、小雨等

无序枚举型

相对湿度

%

区间数型

温度

区间数型

风向

东风、南风、西风北风等

无序枚举型

事故基本信息

车辆类型

受损车辆类型

无序枚举型

机车数量

受损车辆数量

数值型

hellip;

hellip;

hellip;

hellip;

表格 1 铁路行车事故案例数据结构(部分)

(1) 对案例(事故)的描述(问题域):

案例发生时要解决的问题及环境的状态描述包括气象条件、事故基本信息、事故状态、地理环境、以及社会环境属性。

(2) 对案例(事故)应急决策的描述(解决方案域):

对事故救援方案的描述包括组织协调机构、事发地政府组织抢险救援、临近事发地政府组织的协同救援、铁路部门抢险救援及社会力量抢险救援;

(3) 案例(事故)处置完毕的效果描述(效果域):

案例应用效果包括公众反映、救援持续时间、恢复通车时间及经验教训总结等[5]

本课题要研究或解决的问题和拟采用的研究手段(途径)

本课题研究的主要问题是:

如何控制案例库的规模,保证案例推理解决问题的能力,成为当前案例推理研究与应用的关注焦点。通过对运行图节能案例库进行维护控制案例库的规模,提高案例检索结果集的质量,即确保某种情况下的能耗最低的案例会出现在检索结果集中。进而实现列车总运行耗能的减少。

本文拟采用的研究方法有:

本文拟采用实地考察和文献研究的方式来获取必要的研究资料。研究轨道交通运行图案例库规模控制技术领域现状及存在问题的基础上,利用案例库规模控制体系中的相关理论,研究轨道交通运行能耗领域的案例库规模控制方法,并对这些方法进行评价和比较,以求更好地提高轨道交通运行能耗领域管理中知识转换和管理决策的效率。

参考文献

[1]周晓勤.中国城市轨道交通的发展现状及机遇[J].城市轨道交通,2018,(10):23-23.

[2]叶春华,罗世民.城市轨道交通案例推理应急救援探析[U].江西化工,2016,(03):15-16.

[3]张振海,王晓明,党建武,张雁鹏.城市轨道交通应急决策支持系统的研究[U].安全,2012,(03):7-10.

[4]邓守城,吴青,石兵,初秀民,陈先桥.基于案例推理的水上交通突发事件应急响应资源需求预测[A].2014,(03):80-84.

[5]李磊,孟学雷,韦强,吴艳华.基于案例推理的铁路行车事故应急决策方法研究[A].2014,(11):1-6

[6]张彦杰, 基于案例推理的轨道交通能耗管理决策研究[X],南京理工大学硕士学位论文,2014

[7]肖连杰, 基于案例推理的城市轨道交通应急系统研究[X],南京理工大学硕士学位论文,2016

[8]Hongru Li , Chaoyue Zhao , Wei Wu. Research on case-based reasoning search method[O],The 26th Chinese Control and Decision Conference,2014

[9]Wonil Kim ,Sung Wook Baik , Soonil Kwon, Changhee Han ,Chuleui Hong ,Junghyun. Real-Time Strategy Generation System Using Case-Based Reasoning[E], 2014 International Symposium on Computer, Consumer and Control,2014

[10] Xi Zhou,Fei Wang. A spatial awareness case-based reasoning approach for typhoon disaster management[P], 2014 IEEE 5th International Conference on Software Engineering and Service Science,2014

资料编号:[564671]

南 京 理 工 大 学

毕业设计(论文)开题报告

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。