军事实体关系抽取技术文献综述

 2023-08-11 10:54:40

文献综述(或调研报告):

1.实体抽取,关系抽取的含义?

实体抽取也就是命名实体识别,包括实体的检测和分类;主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱的基础,早期的NER的方法主要由语言学家手工构造规则模板,选用特定特征,包括统计信息、标点符号、指示词、方向词、中心词等,以模式与字符串相匹配为主要手段,但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。随着机器学习应用,提出了基于统计学的方法,主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF),基于统计方法的对特征选择要求较高,对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程,在特征学习方面具有较大优势,采用句子嵌入到CNN-CRF中,自动学习特征,对实体进行分类,提取的LSTM-CRF ,BiLSTM-CRF模型,对实体识别提高了一个新的高度。目前,ACL会议提出了基于注意力机制、迁移学习及半监督学习的方法。

关系抽取的主要目的是从文本中识别实体并抽取实体之间的语义关系。现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法、弱监督的学习方法和无监督的学习方法四种:(1)有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法需要手工标记的训练语料,标注数据费时费力。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。基于规则的方法需要根据待处理语料涉及领域的不同,通过人工或机器学习的方法总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取。基于特征向量的方法是一种简单、有效的实体关系抽取方法,其主要思想是从关系句子实例的上下文中提取有用信息( 包括词法信息、语法信息)作为特征,构造特征向量, 通过计算特征向量的相似度来训练实体关系抽取模型。该方法的关键在于寻找类间有区分度的特征,形成多维加权特征向量,然后采用合适的分类器进行分类。(2)半监督的学习方法主要采用Bootstrapping进行实体关系抽取。是一个能利用较少的标注语料获取到置信度较高的多量的标注语料的反复迭代的过程。在基于 BootStrapping 方法的实体关系抽取方法中,一个关键的问题就是如何对获取的模式进行过滤,以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决这个问题, 提出了协同学习( co-learning) 方法, 该方法利用两个条件独立的特征集来提供不同且互补的信息,从而减少标注错误。(3)弱监督是一个总括性的术语,它涵盖了试图通过较弱的监督来构建预测模型的各种研究。(4)无监督实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这种关系。

2. 现阶段的军事实体关系抽取方法调研:

基于BiLSTM和注意力模型(Attention)的军事实体关系抽取模型,该模型分为词向量表示、句子上下文特征提取以及关系分类三个阶段。在词向量表示阶段,模型创新性地加入词性特征。在对相关语料进行实验验证的基础上,结果显示该模型对军事类实体关系抽取有较好的F值。该模型需要大量的人工标注数据,代价很大。

结合词语规则和SVM模型的军事命名实体关系抽取方法。首先,根据作战文书中词语规则和支持向量机模型相结合的军事命名实体关系抽取方法。首先,根据作战文书中词语规则抽取部队编制、地名坐标等有固定行文格式的军事命名实体关系,并实现对部分命名实体的合并优化。在此基础上,使用SVM模型进一步抽取军事命名实体相互关系,与一般基于规则的命名实体关系抽取方法不同,该方法并不试图概括作战文书中的句式规则,仅适用文本中部分词语间的规则。与句式规则相比,词语规则在作战文书中更加常见且形式更为固定,使得基于词语规则的命名实体关系抽取的准确率更高。词语规则和SVM模型相结合的军事命名实体关系抽取方法,解决了单纯使用基于规则的方法泛化能力不强的问题,同时词语规则有效提高了基于SVM模型抽取军事命名实体关系的准确率和召回率。实验结果表明正负不均衡对SVM模型抽取准确率的影响较大,军事命名实体关系的词语规则仍需要进一步提炼。

采用弱监督关系抽取技术构建知识图谱,通过语法分析获取实体词汇的各类标签以及语法分析结果,并从现有知识库中匹配得到实体特征标签,从而利用少量实例完成对预料的标注和关系的抽取。利用弱监督进行关系抽取,在军事知识图谱中极具优势。首先,不需要大量人力标注,可避免大量非军事人员涉及军事知识图谱构建;求不需要外部互联网知识库支持,适用于大量涉密军事实体。

以transformer网络bert为核心的基于跨度的联合实体和关系抽取的模型,在消融研究中,预训练、强负性抽样和本地上下文都对模型的改进有益处。该模型可以识别重叠实体,这对军事领域的实体关系抽取是尤为重要的。

使用预训练模型bert到句子级别关系抽取任务上,该模型探索了实体和实体位置在预训练模型中的结合方式。增加了实体的位置信息后,F1得分增加了,在尝试做军事领域的关系抽取时,的到的预测结果也很好,该模型可以用来弥补基于模板抽取的不足。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。