基于深度神经网络的语音增强算法研究文献综述

 2023-08-15 17:19:55

文献综述(或调研报告):

基于深度神经网络的语音增强算法研究之文献综述

摘要:语音增强是一种将语音从背景干扰中增强出来的技术,它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度神经网络的语音增强技术。首先介绍语音增强的研究背景及意义,接着回顾语音增强技术的基础知识与研究历史,在此基础上,将进一步回顾基于深度神经网络的单通道语音增强方法与麦克风阵列多通道语音增强方法。

关键词: 语音增强,语音信号处理,深度学习,深度神经网络,单通道,麦克风阵列

1.语音增强技术的研究背景及意义

语音是人类沟通交流时最方便快捷的方式。自上世纪九十年代以来,语音信号处理技术在不断地发展与进步,它主要包括语音通信,语音合成,识别和语音增强。语音增强[1]是一种将语音从干扰背景中分离出来的技术,其首要目的是尽可能消除噪声与干扰的影响,提取纯净的语音信号,进而提升语音质量。

语音增强技术具有广泛的应用场景,如移动通信、智能设备、军事系统等。首先,在日常生活中,人们在语音通信过程中不可避免地会受到周围环境、传输媒介、通信设备引入的噪声,乃至其它讲话者的干扰,这些干扰最终将使接收者所收到的语音并非纯净的原始语音信号,而是受干扰的带噪信号。例如,在嘈杂的公共环境(商场,车站,集会)中,人们使用的移动电话常受到强烈的背景噪声干扰。因此,为了提升语音通话质量,人们通常使用语音增强技术来减弱甚至消除噪声或干扰,增强目标信号,从而提升语音的清晰度、可懂度和舒适度。其次,由于近几年人工智能的发展,人们利用语音信号处理技术发明了各种智能设备,如智能手环、智能家电、自动驾驶系统等,而这些智能设备通常需要在嘈杂的环境下使用。所以,有效地去除干扰噪声,提升语音可懂度,对智能设备的应用有着重要作用。例如,汽车的驾驶环境中存在较多引擎与气流噪声,而这些噪声会大大降低语音识别率,进而威胁人们的生命安全。因此,需要对车内混合噪声信号进行语音增强,从而使自动驾驶系统正常地运作。

由此可见,语音增强技术在整个语音信号处理领域占着举足轻重的地位,其技术性能的发展必将提升系统的整体性能,推动整个语音领域的进步。

2.语音增强技术的基础知识与研究历史

语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理领域的核心任务之一,具有非常广泛的应用,例如助听器、移动通信、鲁棒语音识别和说话人识别。1953年,Cherry在他的论文中提出了“鸡尾酒会问题”这一概念[2]:在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。因此,语音增强也被称为“鸡尾酒会问题”。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。