基于深度学习的文档图像几何畸变矫正算法研究文献综述

 2022-11-25 16:45:46

文 献 综 述

1 引言

近些年来,数字化文档被广泛应用于办公自动化、数字化图书馆、工业自动化等领域。与传统的纸质文档相比,数字化的文档图像具有不可代替的先进性,数字化文档可以有效节约纸张、提高办公效率、便于文档的传递和分发。因此,随着我们的生活环境更加智能化,数字化文档图像会在学习和工作中扮演着越来越重要的角色。文档图像几何畸变矫正技术可以有效地将含有折痕或者弯曲的文档图像转换成为平面图像,所以我们可以对数字照相机拍摄的文档图像直接进行数字化。相比于利用平面扫描仪处理文档,数字照相机体积小、重量轻、携带方便;它很容易结合到各种数码产品中去,如打印机、手机、笔记本电脑等等;它们受到的环境约束小,可以手持拍照,也可以远距离对厚重的书籍或珍贵的纸质文档拍照。因此,利用手机、数码相机等数字照相机对文档图像的几何畸变进行矫正是一项非常有意义的研究工作。

随着计算机的发展,深度学习在社会的各个领域中扮演着重要的角色,有着较为广阔的应用前景。从本质上来看,深度学习实际就是通过深层神经网络的构建,对人脑进行模拟和分析,或者是通过模拟人脑对相关数据进行学习和解释的技术。在图像处理领域,深度学习已经得到了广泛的应用,并且也获得了非常显著的成效。然而,目前国际国内对数字照相机进行文档几何畸变矫正的技术尚不成熟,虽然数字照相机与扫描仪相比有很多的优越性,但如果想要取得人们的青睐并取代平面扫描仪,有许多问题需要解决:光照不均匀、分辨率不够高、背景复杂等等。因此,本文对数码照相方式获取的几何畸变的文档图像与矫正后的文档文档图像进行研究,先用传统图像处理方法对数据集图像进行特征提取预处理,之后运用Python搭建出文档图像几何畸变矫正的深度神经网络模型,并对模型进行训练与优化,进而实现畸变文档图像的快速矫正。

针对本毕业设计课题,前期工作分析研究了来自中国知网、IEEE等平台关于文档图像矫正、深度学习模型等方面的多篇参考文献,撰写了本篇文献综述。文献综述从畸变文本图像矫正的评价指标与开源测试集、传统的畸变矫正方法和基于深度学习的畸变文本矫正方法等方面展开。此外,相关文献的研究为之后深度学习网络模型的建立和图像处理算法的学习打下了坚实的基础。

2 畸变文本图像矫正的评价指标与开源测试集

在拍摄文档图像时,文档的表面并不处于理想的扫描状态,它们可能是弯曲的、折叠的或皱褶的,或者是放置在复杂的背景上。所有这些因素都会导致在之后的文档图像分析过程中出现几何畸变。因此,在捕获的图像中对这些文档进行数字平化是很有必要的。先前的研究中提出了两种不同的图像畸变编矫正的评估方案。一种是基于光学字符识别(OCR)精度的,另一种是基于图像相似性度量的。

光学字符识别(OCR)算法的识别率可以反映出图像几何畸变矫正算法的准确性和有效性。但是,OCR的准确性在很大程度上取决于使用的使用的场景,在识别字符和数字上,OCR识别率能够很好地反映出文档的畸变程度。如果需要处理包含大量图像的文档,OCR没有良好的性能。

对于图像相似度的度量,Wang等人[1]提出了多尺度结构相似度(MS-SSIM),因为含有弯曲或折叠的畸变文本图像矫正的主要任务是关于文档结构,而不是像素级的颜色精度。单尺度SSIM是对一幅图像中的所有图像块进行计算。它是基于每个图像patch内的均值和方差等统计度量的相似性。MS-SSIM的实现建立了输入图像和目标图像的高斯金字塔,MS-SSIM是每一级计算的SSIM的加权和。You等人[2]提出的一种SIFT[3]关键点来评估全局失真的方法:通过估计全局仿射变换来将矫正后的图像配准到实际平面上,在这些图像中使用SIFT关键点对应估计。还提出了使用SIFT-flow[4]来评估局部失真(LD)的方法:通过使用SIFT-flow在校正后的图像和实际平面图像之间进行密集图像配准来计算局部度量。与现有方法进行对比,密集配准比稀疏SIFT基于关键点的配准在无偏评估中更有用,因为如果结果包含较大的变形,稀疏方法更有可能忽略许多匹配。

由于具有文档图像几何畸变的大规模真实数据难以获得,Ma等人[5]通过对未变形的文档图像进行扭曲,创建了一个大约10万张图像的合成数据集(benchmark)。以该数据集为训练对象,我们可以对建立的深度学习网络进行各种数据增强,提高网络的泛化能力。benchmark数据集包含三个部分:原始图像、以文档为中心裁剪的图像和用平板扫描仪扫描的图像。数据集如下图所示:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。