PU学习算法设计及其在金融风险评估中的应用文献综述

 2022-11-28 20:14:25

现有的PU学习方法可以根据U数据的处理方式分为两类:第一类通过识别U数据中可能是负(U)数据,标记后执行普通的监督学习(PN);第二类是将U数据视为具有较小权重的N数据。第一类方法严重依赖启发式识别N数据,第二类方法很大程度上依赖于U数据权重的良好选择。

Ryuichi Kiryo等[1]从仅有的正(P)和未标记(U)数据,现有技术是无偏PU学习,针对其模型非常灵活,会出现严重的过度拟合的问题,提出了一种用于PU学习的非负风险估计器:该估计器遵循并改进了现有技术的无偏风险估计器,首先,给定一些验证数据,可以使用估计器来评估风险,对于这种情况,它有偏差但是最优,对于某些对称损失,均值-保证平方误差减少;然后给定一些训练数据,使用估计其来训练二元分类器,对于这种情况,其风险最小化器具有与对应于其无偏对应物的风险最小化器相同顺序的估计误差界限。作者同时提出了一种大规模的PU学习算法,用于最小化无偏和非负风险估计。该算法接受任何替代损失,并基于随机优化。

Ming Hou等[2] 在现有的基于判别学习的PU模型试图针对U数据寻找未标记的最佳重新加权策略,以找到合适的决策边界。针对传统PU模型在适应非常灵活的深度神经网络时会出现过度拟合的问题,作者提出了如下解决方案:首先通过利用强大的生成对抗网络(GAN)从生成学习的角度创新一种全新的范式来攻击二元PU任务。GenPU框架包含一系列鉴别器和生成器,这些鉴别器和生成器在同时产生正面和负面真实样本方面具有不同的作用。在GAN的基础上,通过采用生成建模看来解决二元PU分类任务,GenPU模型在游戏中包含一系列生成器和鉴别器作为代理。设计这些试剂以在同时产生正样和负样实样样品中起到不同的作用,然后可以在这些合成样品上训练标准PN分类器。给定一小部分标记的P数据集合,GenPU能够捕获潜在的P和N数据分布,并且能够在有限的P和N样本中创建,这样可以大大减轻传统PU的过度配置问题。此外, GenPU可以通过切换到具有距离测量的不同基础GAN变体而不是Jensen-Shannon散度(JSD)来建立。只要这些变体是复杂的,产生高质量的样本,可以通过训练非常深的神经网络来实现最佳精度。

Marthinus Christoffel du Plessis等[3]针对未标记数据,简单的分离正数据和未标记数据会产生偏差解,提出了对正标记样品和未标记样品使用不同的损失函数。但是,在此设置中,hingle损失是不允许的。作为替代方案,我们提出double hingle损耗。从而可以得到估计量在最优参数率下收敛到最优解。

Yixing Xu等[4]针对PU学习问题仅侧重于正例和未标注的数据中分类,并且在实际应用中受到限制的问题,提出了通过使用给定的输入多类数据训练多类模型,并基于模型决策预测标签的方法。该方法分别为标记和未标记数据构造了不同的凸损失函数,以消除系统偏差。作者表明MPU算法允许直接模型相对于多类输入数据进行训练,而不是通过两步法,这通常会导致高分类错误率。通过实验验证表明,所提出的MPU算法优于MPU问题中的当前最新方法,并且在BPU问题中具有较低的计算负担。

Charles Elkan等[5]针对如何在给定非传统训练集的情况下学习标准二进制分类器,对正例和未标记的例子进行训练的分类器预测的概率仅仅是与正的条件概率的正常因子不同的概率。作者提出了如果正面训练样例是随机标记的,那么由标记和未标记的例子训练的模型产生的条件概率仅仅由一个常数因子来自一个条件概率的理论。作者应用此方法解决现实问题:识别应包含在不完整的专门分子生物学数据库中的蛋白质记录,找到与现实世界分子生物学数据库相关的新数据实例。

MarthinusC.duPlessis等[6]针对从正例和未标记的数据中学习分类的问题提出了通过正例数据和未标记数据之间的成本敏感学习来解决的方法。该方法通过凸的替代损失函数,例如ramp损失可能由于非本征偏移而导致错误的分类边界,但是通过使用诸如斜坡损失之类的非凸函数函数可以避免该问题。作者从类数据估计类先验时的超额风险,并表明如果未标记数据由正数据支配,则分类精度对类先验估计不敏感。作者通过计算泛化误差界限,使该方法的合理性得到了验证。

Bing Liu等[7]针对使用正面和未标记的示例构建文本分类器的问题,更有原则的方法来解决基于SVM偏差公式的问题。作者通过两个步骤来解决这个问题:从未标记的集合中识别一组可靠的否定文档,然后通过迭代地应用分类算法然后从集合中选择好的分类器来构建一组分类器。如果样本大小足够大,则将被分类为负的未标记示例的数量最大化,最小化被分类为正的未标记实例的数量,同时约束正例将被正确分类将给出良好的分类器,在无噪声的情况下,这会出现对于正例而言没有错误,但仅对于未标记的示例。

Marthinus Christoffel du Plessis等[8]针对只有来自正类的附加样本,才能正确估计未标记数据集的类先验的问题,提出了使用适当的惩罚分歧进行模型拟合,以消除由于没有负样本而导致的误差的方法。通过用惩罚的L1距离给出了具有解析解的计算上有效的算法,并建立了它的均匀偏差界限和估计误差界限。作者通过提供统一的偏差界限和误差估计界限,从理论上支持了该方法的有效性。

参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。