基于注意力机制和深度学习的多模态语 义情感识别研究文献综述

 2022-11-28 20:20:54

文 献 综 述

第一章 绪论

1.1 研究背景与意义

情感作为人类一种复杂的生理心理活动集合体。其本身就是心理学,生理学等多个学科的研究热点。同时随着互联网的快速发展,可接入互联网的手机成为人们发表观点的主要工具,手机上可以通过app或者web登录社交网站,这种便捷的方式让越来越的人愿意在这些平台上获取、分享信息。且随着科学技术的不断革新,社交媒体上所能发表的信息也不仅局限于单一文本,由于单一文本或者仅仅一张图片难以描述人们所要表达的真实想法,所以人们越来越倾向于在社交平台上通过视频、图片和文字等多模态信息来表达自己对一些事物或者热点事件的看法。

现阶段对用户情感的识别很多都停留在单模态层面,这在一定程度上可能反映用户的部分情感,但是单模态信息往往是片面的,且具有误导性的。更甚者,当网民在社交平台上发表了一条包含文字、图片等多模态信息的动态时,其中文字和图片表达的意思可能是相反的,比如,一个人发表的文字是“今天真开心呀!”,但是配的图片缺却是一张哭脸。这时如果仅就文本这一单模态信息来进行情感识别,就可能得出于用户实际情感相悖的结果。因此,融合多模态信息对网民情感进行识别有利于提高情感识别的准确性。只有用户的情感识别准确度高,才能做到信息个性化推送的精准,同时有助于广告的精准投放。

多模态情感识别即结合多种数据形式进行的情感分析研究,数据形式包括:文本、图片、视频、音频等。目前多模态情感识别研究者多采用基于机器学习的方法进行情感分类。但是这种方法的效果严重依赖于特征的提取,即特征的优劣性决定了分类模型的好坏,近年来深度学习被广泛应用于情感分析中,有效地减轻了情感识别工作对特征工程的依赖,且 避免了手工提取低层特征的繁琐和选取特征不全面的问题。深度学习可以看作是一类神经网络模型的集合,这些模型都具有一个输入层、一个输出层和若干隐藏层,每个网络层都由神经元组成。深度学习的目的是学习输入数据的特征,使网络的输出和目标输出尽可能接近。深度学习发展至今,涌现了包括深度信念网络、卷积神经网络、循环神经网络等在内的多种神经网络。

深度学习最早是应用在图像识别领域。LeCun在1998年就利用卷积神经网络完成了手写数字识别任务,得到了当时最高的识别准确率。A. T. Lopes等人(2015)选用了一种类似于 AlexNet 结构的卷积神经网络对面部表情进行识别,获得了较准确的识别率。深度学习在语音上的应用也让语音情感识别突破了很多瓶颈。,Mohamed 和 Hinton 等利用深度信念网络(Deep Belief Network,DBN)搭建了单音素分类器。此外,Hinton 通过和微软研究人员一起合作,构造了基于 DNN-HMM 声学模型的语音识别系统,该系统由深度神经网络(Deep Neural Network,DNN)和 HMM 融合而成,并且在大词汇量语音识别上取得了巨大成功。除此之外,深度学习在文本处理方面也做出了很大贡献。加拿大蒙特利尔大学教授 Bengio等在 2003 年提出采用词嵌入 embedding 的方法将词语映射到 N 维实数向量空间,有效地避免了因语料库过大而造成的维度灾难,该方法采用神经网络训练的模型称为N-gram模型。2008年NEC Labs America研究员Collobert和Weston等结合embedding和多层一维卷积的深度神经网络,完成了词性标注、分块、命名体识别和语义角色标注等多个典型的 NLP 问题,并且取得较高的准确率。因为深度学习在单模态情感识别的表现明显优于传统方法,且因为每个模态信息的特性不同,所以本文试图通过对每个单模态信息进行基于各自不同的深度学习方法的特征提取,图像依旧沿用卷积神经网络(CNN),文本则因为上下文信息的重要性,所以采用长短期记忆网络(LSTM)对其进行特征提取。而视频本身是一个多模态信息的集合,包括音频和图像,文本,本文试图用提取视频关键帧的方式来对帧内的图片进行人脸情感识别,依旧采用CNN。

注意力模型最早是在计算机视觉领域提出来的,2014年Google Mind 团队在RNN上结合注意力模型进行图像分类,从而将注意力模型的应用推向了高潮,目前注意力模型已经在图像识别、自然语言处理、机器翻译、语音识别等多个领域得到了应用。本文试图在每个模态信息提取时将注意力机制与神经网络相结合,旨在先将干扰降低,再进行基于深度学习的特征提取,提高了情感分类的效率和准确率。

1.2 本文的主要研究内容以及创新点

(1)文章的主要研究内容

本文主要从深度学习的角度,基于注意力机制研究包括文本、图像和视频的多模态情感识别。目前常见的情感识别研究都是利用卷积神经网络或者是长短时间记忆网络直接处理视频信息,但这样的处理方法太过于粗糙,因为视频中的信息属于稀疏信息即并不是每个时间段的内容都包含情感信息,相反大多数的信息是无关信息。基于此我们将注意力机制引入情感识别,提出基于注意力机制的深度学习的情感识别方法,利用视频信息的稀疏性,检测不同位置与情感的相关性。本文总体研究结构如下图所示:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。