摘要
这篇文章将带我们简要的了解随机森林的发展历程,随机森林的主要原理和性质。最后是关于随机森林的结论和近年来各位学者利用随机森林做出的各方面研究。
关键词:随机森林,集成学习,优化策略, Random Forest
0研究背景
在最初的机器学习中,由于机器算力的局限性,决策树成为那个时代的机器学习打下基础。决策树算法比如ID3 [Quinlan,1986]是以信息熵增益来划分选择属性。在这之后著名的C4.5决策树算法[Quinlan,1993]以及CART决策树[Breiman et al., 1984]也被相继提出。到这时决策树的发展体系已经很完善了。但是决策树在多特征的预测上并没有很好的表现,具体的表现在于数据集中可能存在连续特征值的缺失或者[Quinlan,1993]或者过于容易在单个数据集上产生过拟合[Quinlan 1993]。因此以决策树为基础的集成学习被提出,在集成学习中,最具代表性的是AdaBoost[Freund and Schapire, 1997]以及随机森林算法[Breiman, 2001a]。在随机森林中,我们做出了很多与传统决策树和集成学习的改进,比如我们将森林中的随机值进行固定,一般k=log d[Breiman, 2001a]。通过这些方法,我们在大规模数据集上都取得了很好的效果。
1.集成学习的构成原理
集成学习[Breiman,1996a; Wolpert and Macready,1999] 通常指我们先产生一组个体学习器,再通过某种方法将他们结合在一起。这其中的个体学习器通常有一个现有的算法从训练数据中产生。在学习器中又分为同质学习器和异质学习器。同质学习器比如神经网络集合,它的基本构成就是每一个神经结点。在同质集成中,个体学习器被称为基学习器,相应的学习算法被称为基学习算法。当集成中包含不同类型的个体学习器时比如同时包含决策树或者神经网络时,这样的算法被称为异质的。异质集成中的个体学习器由不同的学习算法生成,这时就不再有基学习算法,而个体学习常称为组件学习器。
集成学习通过将多个学习器进行结合,常常能获得比单一学习器显著优越的泛化性能。但是为了使这些弱的学习器结合以后比原来的强,学习器本身也需要满足一些条件。好的个体学习器不仅需要具有一定的准确性,每个个体学习器之间也需要有区别。这里学习器的区别不是只不同类型的学习器,而是指同一类型的学习器之间的权重应该有所不同才行。在这里我们可以假设一个二分类问题和真实函数,假设基分类器的错误率为,即对每个基分类器,有
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。