- 文献综述(或调研报告):
自然语言处理(natural language processing, NLP)是计算机科学和人工智能领域的一个重要方向。本任务研究的是自然语言处理中的计算幽默(computational humor)问题,其本质是分类问题(classification problem)。另外,从机器学习到深度学习,自然语言处理中的各种问题,包括计算幽默,也有了新的解决方法。
词嵌入(word embedding)是深度学习中的一个关键概念,作为一种语言表示的方法,它使用特征化的表示,将单词或者词组映射为维数较低的向量,改进了one-hot具有的维数高、冗余度大、泛化能力不强的缺点,可以让算法自动地理解类似的词。即便任务的训练集较小,也可以使用词向量通过迁移的方式让自己的模型具有较高的性能。Pennington等人于2014年提出的用于学习词嵌入的GloVe模型[1]结合了全局矩阵分解方法(global matrix factorization,典型的有LSA)和局部上下文窗口方法(local context window method,典型的有skip-gram)的优点,使之既能有效利用统计信息又能结合上下文而不仅仅是上文来学习词的表示。
RNN模型(recurrent neural networks)在语音识别、自然语言处理和其他一些领域中都引起了极大变革,Hochreiter等人在1997年提出的LSTM[2]改变了传统RNN的隐藏层,加入记忆细胞的机制,使用输入(input)、遗忘(forget)、输出(output)三个门,使LSTM能够更好地捕捉深层连接。
RNN中有一种重要的多对多结构,又称为Encoder-Decoder模型,应用在文本领域时一般又称作Seq2Seq(sequence to sequence)模型,Seq2Seq最早由谷歌的Sutskever等人于2014年提出[3],其思想是使用一个LSTM作为encoder将输入序列映射到一个固定维数的向量上(称为语义编码),然后再使用另一个LSTM作为decoder从这个向量中解码出目标序列。上述的语义编码包含输入序列中的所有信息,且并没有主次之分,当输入序列过长时这些缺点将会限制模型性能,因此Bahdanau等人在2014年提出了注意力(attention)机制[4],将原本固定的一个语义编码换成了根据当前输出单词来调整的、加入注意力机制的、变化的多个不同的语义编码,使得模型能够筛选出少量重要信息并忽略多数不重要的信息,提高模型精确度。
Wang等人就使用基于注意力机制的LSTM,希望对文本进行更细粒度的分析,即方面级别的情感分类[5]。其团队提出将方面向量连接到隐藏层输出中和直接将方面向量作为输入向量的一部分两种方法,让模型将注意力集中于文本的不同部分。
CNN模型(convolutional neural networks)则采用和RNN完全不同的方式来理解自然语言,它虽然不善于捕获长期依赖,但它擅长以并行的方式捕获局部相关性、提取高阶特征。
Santos等人在2014年提出使用深度CNN来对短文本进行情感分析[6],为了更严格、更全面地从有限的文本中提取特征,该模型通过无监督学习从大量数据中利用先验知识,并且使用了从字符级到单词级最终到句子级的方法,在不同领域的两个语料库上对单句情绪预测都体现了其优秀的性能。
Zhou等人在2015年的论文中提出C-LSTM[7],它将CNN和RNN结合在一起,先用CNN提取N-gram特征,再使用LSTM最终获得句子表示,该模型在情绪分类(sentiment classification)和问题分类(question classification)任务上都获得了高于CNN或LSTM的性能。
针对本毕设的任务,也有一些相关度较高的最新模型。
Barbieri等人将反讽(irony)和幽默(humour)联系起来[8],挖掘这两种比喻性语言的关联,其团队并未使用深度学习算法,而是采用随机森林(random forest)和决策树(decision tree)两种二分类器,挑选多组特征进行学习,结果显示跨领域适用性高且性能明显好于前人研究。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。