基于深度学习的手写字符识别系统文献综述

 2023-08-15 17:21:46
  1. 文献综述(或调研报告):

手写字符识别系统的设计的需求可以总体分为两个方向:

1.首先是网络的设计和优化,这是毕业设计的主题任务,不同的网络结构和超参数在不同情况下的应用可能还会产生相当大的区别,最终实现效果也是建立在基础网络应用情况良好的基础之上。需要对特定的字符做特定的网络设计,因为对于手写数字的识别技术已经比较成熟,我选择对于五十音进行识别和部分汉字进行识别,CNN的分类做的很好,其优点和小部分缺点已经在后面的文献综述之中给出。

2.本课题将聚焦于另外一个关键矛盾,也就是在一个手写数据集上已经运行并且测试完毕的网络在对于新的语言字符集训练和识别时能否达到好的效果。这部分属于设计成果的落地,是最终成果的体现,

就提及的两个方向,本人对字符识别网络应用的现状和问题进行了调研:

2.1. CNN是前馈神经网络的一种变体 CNN的架构通常包含以下内容:在卷 积层进行卷积运算,然后进行池化操作,CNN是分层神经网络,包含很多卷积层和子采样层,具有巨大的在视觉层次结构的每一层学习良好功能的代表性能力。它也有已有效地应用于许多视觉问题,例如视觉对象识别和手写识别。这些功能是从输入图像中自动提取的,具有优点:对于输入文本图像的偏移和形状失真是不变的[10],卷积神经网络(CNN)的最新研究[2]已经证明了他们在文件识别任务中的力量。基于CNN的识别方法具有有效的不需要手工制作的特征向量的优势。这个架构能够从以无人监督的方式训练角色图像样本在某种意义上,而不用手工制作来确定。

2.2. 在CNN的应用中仍然有可以进行继续优化的空间,例如级联cnn网络所实 现的[11] 它是一个R-CNN的多级扩展,其中检测器级深入到级联中顺序性更高避免误报。R-CNN阶段的级联使用一个阶段的输出顺序地训练训练下一个。对人脸检测及自然场景之中的目标物体检测具有很好的效果,这进一步地说明了cnn在识别特征方面的优势。

2.3. 深度学习在计算机视觉领域,机器翻译和自然语言处理领域也有着巨大的用武之地。在 2016 年,随着深度学习的进一步发展,seq2seq 的训练模式和翻译模式已经开始进入人们的视野。除此之外,在端到端的训练方法中,除了需要海量的业务数据之外,在网络结构中加入一些重要的模块也是非常必要的。在此情形下,基于循环神经网咯(Recurrent Neural Network)的注意力机制(Attention Mechanism)进入了人们的视野,基于 RNN 的 Attention 机制就是:建立一个编码(Encoder)和解码(Decoder)的非线性模型,神经网络的参数足够多,能够存储足够的信息。

除了关注对象的整体信息之外,每次进行对象局部特征的识别的时候,需要对不同的对象局部特征赋予不同的权重,在这种情况下,再解码的时候,就可以同时考虑到整体的信息和局部的信息。

2.4. 但是[4],大多数基于注意力机制的方法通常会遭受由于其循环对齐选项导致严重的对齐问题,对齐方式取决于历史解码。为了解决这个问题,我们提出了一种解耦注意力网络(DAN),将通过使用历史的解码结果来使对齐操作解耦。DAN是一种很有效灵活而强大的端到端文本识别器,它包括三个组成部分:1)提取视觉效果的特征编码器输入图像中的特征;2)卷积对齐基于视觉对齐操作的模块编码器的一些特征;和3)解耦后的文字-通过共同使用特征图和注意力图。

综上所述,本课题所研究的是实现一个基于解耦注意力网络的对手写字符识别的网络并在新的应用场景和数据下进行测试。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。