- 研究目的及意义
深度学习是机器学习的一个分支,大多数机器学习的方法主要是依靠人工设计的特征,将机器学习问题会变成优化问题,通过优化特征权重,从而达到最好的预测效果。然而,人工设计的特征往往会定义过多,内容不完整,并且需要花费大量的时间去设计和验证。而自动学习的特征容易自适应,并且可以可以节省很多的时间。深度学习提供了一个弹性、通用的学习框架用来表示自然的、视觉的和语言的信息特征。而在自然语言处理应用中,本身表达语言很复杂,使用的时候又需要考虑情境,这时候深度学习就变得非常实用。
所谓“自然语言”,是指人们日常交流使用的语言,如英语等。相对于编程语言或者是数学符号这样的人工语言,自然语言随着一代人传给另一代人不断演化,所以很难用明确的规则来描述。从广义的意义上来说,“自然语言处理”(Natural Language Processing,简称NLP)包含所有用计算机对自然语言进行的操作。最简单的是,通过计数词出现的频率来比较写作风格。之后,慢慢的“理解”人所说的话,至少要能够对人的话语做出有效反应。
NLP的技术应用日益广泛。例如:手机和手持电脑支持输入法联想提示和手写识别;网络搜索引擎能搜到非结构化文本中的信息;机器翻译能把中文文本翻译成英文。通过提供更友好与自然的人机界面,以及更复杂的存储信息获取手段,语言处理在这个多语种的信息社会中扮演着非常重要的角色。
2006年,多伦多大学的Hinton提出了深度信念网络,利用无监督的方法,每次训练一层贪心学习算法。之后,基于Auto-encoders,又有新的算法被提出。近几年来,受益于越来越多的数据,计算机的更新换代,以及层出不穷的新模型、算法,深度学习自然语言处理研究得到了很大的促进。
- 研究背景
NLP是科学、经济、社会和文化中夹杂的一个重要因素。NLP正在迅速发展,它的很多理论和方法在大量新的语言技术中得到应用,所以,对很多行业的人来说,掌握 NLP 知识十分重要。在应用领域,人机交互、商业信息分析、web 软件开发;在学术界,人文计算学、语料库语言学、计算机科学和人工智能领域,NLP被广泛应用。所以学术界的很多人把NLP叫称为“计算语言学”。
三、研究内容
本篇论文主要是基于Python编程语言及其上的一个名为自然语言工具包(Natural Language Toolk it,简称NLTK)的开源库进行研究。NLTK中包含大量的软件、数据和文档,将其直接应用于模型的设计中,改造神经概率主题模型,深度学习自然语言处理的应用。主要的研究内容有以下几个方面:
1.如何用非常简单的程序处理和分析语言数据,以及如何写这些程序。用anaconda等进行编译,查看输出结果并且加以记录
2.如何运用NLP以及语言学的关键概念来描述和分析语言。深入学习NLP的概念,并且加以理解,用自己的语言进行概括与描述
3.NLP中,有哪些实用的数据结构和算法。将其在anaconda等中进行运行,查看相关结果,并进行理解语句的组成
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。