基于线性预测编码的语音合成设计文献综述

 2021-09-27 20:33:16

毕业论文课题相关文献综述

文献综述

一、语音合成的研究意义和应用价值

语言作为人类特有的功能，在人类相互交流，传递信息时扮演着十分重要的角色，是人们传递思想与分享感情的主要手段。同时历史表明，语言在传统历史文化的传承方面起着重要作用。语音即语言的物质外壳，是语言符号系统的载体。由于语言和语音与人的智力活动密切相关，与社会文化和进步进紧密相连。如今在这个信息爆炸的时代，如何运用现代科学技术研究分析语音处理技术，从而更有效地产生、传输、存储、获取和应用语音信息，对社会的生产与生活都具有重大意义[1]。

语音信号处理技术正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理，工业生产部门的语声控制，电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支持系统等各种实际应用领域相接轨，并且有望成为下一代操作系统和应用程序的用户界面[2]。目前在比如公共交通中的自动报站、各种场合的自动报时、自动告警、电话自动查询服务和文本校对中的语音提示等方面，语音合成发挥着很好的社会效益。在一些门禁系统和智能手机也有着语音合成技术的运用。

二、国内外关于语音合成技术的研究发展现状

语音合成技术的研究包括合成算法和韵律模型两大模块，前者构成了合成系统的骨架，后者是合成系统的思想，它们对于完善的合成系统都是必不可少的。现代语音合成技术的发展是和计算机、数字信号处理、人工智能技术的发展是分不开的。用计算机研究语音合成，大大缩短了研究周期，增强了研究手段，降低了研究成本。

语音合成技术经历了一个逐步发展的过程，从参数合成到拼接合成再到两者的逐步结合，其不断发展的动力是人们认知水平和需求的提高。在语音合成技术的发展中，早期的研究主要是采用参数合成方法[3]。值得提及的是Holmes的并联振峰合成器（1973）和Klatt的串/并联振峰合成器（1980），只要精心调整参数，这两个合成器都能合成出非常自然的语音。自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。目前，常用的语音合成技术主要有共振峰合成、发音器官参数合成、LPC合成、PSOLA技术和LMA声道模型技术[4]。它们各有优缺点，人们在应用过程中往往将多种技术有机结合；或将一种技术的优点运用到另一种技术上，以克服单一技术的不足。20世纪80年代，我国开始介入汉语TTS领域的研究。清华大学、中国科学院声学所、中国科技大学等单位都开展了相关研究工作并取得较好成绩，有些研究成果已转化为产品得到了实际应用，如清华大学的Sonic系统、中国科技大学的DK-863汉语文语转换系统等[5]。

三、线性预测编码及语音合成简介

由人工制作出语音称为语音合成（SpeechSynthesis）。语音合成是人机语音通信的一个重要组成部分，语音合成技术赋予机器人人工嘴巴的功能，它解决的是如何让机器人象人那样说话的问题。语音合成是语言合成的基础，有了清晰、自然的合成语音再加上一些语言学处理，就能让机器说话。语音合成系统主要包括3部分[2,5]：文本分析模块、韵律生成模块和合成语音模块。其中合成语音模块是最基本、最重要的模块。文本信息首先由文本输入模块读入；接着文本分析模块即文本的预处理模块，主要完成自动分词、多音字处理、特殊符号的转换、文本的切分等，然后将处理好的数据送入韵律生成模块和合成语音模块；韵律生成模块根据各项合成规则规划出目标音高、音长、音强、停顿及语调等，将规划的结果参数送入合成语音模块；合成语音模块利用合成算法合成出满足目标要求的音节波形数据，将其拼接成语音流数据送入语音输出模块，最后由语音输出模块输出语音。

1947年维纳首次提出线性预测（LinearPrediction）这一术语，而板仓等人在1967年首次将线性预测技术应用到了语音分析和合成中。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码