文 献 综 述
摘要:硅藻是一种水生单细胞生物,可用于仿生合成、微型器件、气候控制、生物监测、生物勘探、生态修复和生物燃料等领域,具有广阔的应用前景。鉴于硅藻的生物多样性和潜在的利用方式,迫切需要对其多样性进行全面评估。有效的生物多样性评估需要一个分类知识库。虽然这个知识库曾经依赖于少数分类专家和各种各样的文献,但因特网正快速成为分类学信息的存储库-其信息可以被广泛地访问。目前,大多数分类学工作都是在同行评审的期刊上进行的,这是一种对用户来说代价很高的资源,并且限制了在全球范围内传播有效的分类学信息,最终导致了在许多藻类研究中存在着过时和模糊的鉴定。本次研究意在建立一个长江流域硅藻数据库和可识别硅藻种类和数量的图像识别软件。
关键词:数据挖掘 图像识别 深度学习 迁移学习
正文:
数据挖掘【1】,是指从大量的、不完全的、有噪声的【2】、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。相似的概念成为知识发现,是指用数据库管理系统【3】来存储数据,用机器学习【4】的方法来分析数据,挖掘大量数据背后隐藏的知识。人类已进入一个崭新的信息时代,数据库中存储的数据量急剧膨胀,需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率,产生了一个新的研究方向:基于数据库的数据挖掘。随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。数据挖掘分三个步骤:建立数据库,训练模型,结果可视化。本次研究首先需要建立长江流域硅藻数据库,其后进行模型训练,对硅藻进行分类分析,最后用所得模型对硅藻图像进行预测并将结果可视化。
图像识别【5】,是指利用计算机对图像进行处理和分析,以达到识别各种不同目标和对象的技术,目前在各个领域中都有相应的应用。图像识别可能是以图像的主要特征【6】为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。在计算机视觉识别系统中,图像内容通常用图像特征进行描述。事实上,基于计算机视觉的图像检索【7】也可以分为类似文本搜索引擎的三个步骤:提取特征、建索引build以及查询。
深度学习【8】的概念源于人工神经网络【9】的研究。含多隐层的多层感知器【10】就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征【11】表示。神经元中,树突具有接受刺激并将冲动传入细胞体的功能,是神经元的输入。轴突具有将神经冲动由细胞体传至其他神经元的功能,是神经元的输出。信号通过树突输入,汇聚于细胞核后,又沿着一条轴突输出。人类的大脑便是以860亿个这样的神经元为基本单元,连接成神经网络实现的。1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构,发表了抽象的神经元模型MP【12】,该模型包含输入,输出与加权求和计算功能。至此,神经网络诞生了。若每个神经元与前后相邻层的每一个神经元都有连接关系,则称为全连接神经网络【13】。而深层次的神经网络,我们称其为深度学习。在实际应用中,使用全连接神经网络会遇到参数过多导致的模型过拟合问题。为了解决这个问题,往往会先通过卷积【14】对图片进行特征提取,再将提取的特征喂入全连接神经网络。
迁移学习,是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响。迁移广泛存在于各种知识、技能与社会规范的学习中,包括数据挖掘技术。迁移学习旨在从一个或多个源任务提取知识,并将这种知识用于目标任务。在我们的研究中,源任务是识别来自于其他地区的硅藻图像中硅藻的种类和数量,目标任务是识别来自于长江流域硅藻图像中硅藻的种类和数量。前面虽然提到,在现代数据量急剧膨胀,但在我们的研究中,长江流域硅藻图像的人工分类成本很大,难以获得大量的数据以支持深度学习。因此本次研究将尝试迁移学习,利用来自世界各地的硅藻图像【15】建立数据库并进行深度学习和迁移学习,以实现可识别长江流域硅藻种类和数量的图像识别软件。
参考文献:
- 范明,孟小峰译,数据挖掘概念与技术第三版,机械工业出版社,2012.
- R.C. Gonzalez,R E Woods,L. Edins,Digital Image Processing Using MATLABJ] Beijing:Publishing House of Electronics Industry,2004.
- Raghu Ramakrishnan,Johannes Gehrke,数据库管理系统原理与设计第三版,清华大学出版社,2012.
- 阿培丁,机器学习导论,机械工业出版社,2009.
- 阮秋琦,数字图像处理第三版,电子工业出版社,2011.
- 翟俊海,赵文秀,王熙照,图像特征提取研究,河北大学学报(自然科学版),2009.
- 向友君,谢胜利,图像检索技术综述[J],重庆邮电学院学报(自然科学版),2006.
- 郭元祥,深度学习:本质与理念,新教师,2017.
- 阎平凡,张长水,人工神经网络与模拟进化计算,清华大学出版社,2005.
- 焦李成,神经网络系统理论,西安电子科技大学出版社,1989.
- 孙志军,薛磊,许阳明,王正,深度学习研究综述[J],计算机应用研究,2012.
- Simon Haykin,神经网络与机器学习第三版,机械工业出版社,2011.
- 骞宇澄,刘昭策,深度学习的实现与发展---从神经网络到机器学习,电子技术与软件工程,2017.
- 许可,卷积神经网络在图像识别上的应用的研究,浙江大学,2012.
- Lalit Kr. Pandey,Krishna Kr. Ojha,Prem Kumar Singh,Chandra Shekhar Singh,Shubham Dwivedi,Elizabeth A. Bergey,Environmental Technology amp; Innovation 5 (2016) 148–160.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。