15.5 文献笔记

原文 The Elements of Statistical Learning
翻译 szcf-weiya
发布 2017-09-04

这里讨论的随机森林是Breiman(2001)1提出来的,经很多想法很早一前就以不同的形式出现了.值得一提的是,Ho(1995)2提出“random forest”的概念,并且用了在随机的特征子空间中增长树.采用随机排列和平均来避免过拟合是由Kleinberg (1990)3提出来的,最后出现在Kleinberg (1996)4中.Amit and Geman (1997)5采用在图象特征中增长随机树来处理图象分类问题.Breiman (1996a)6引出了bagging,这是他的随机森林的先驱.Dietterich (2000b)7也提出采用额外的随机化来提高bagging的性能.他的方法是在每个结点出对前20个候选分离排序,接着随机从中选择.他通过仿真和实际例子展示了额外的随机化能够提高bagging的性能.Friedman and Hall (2007)8证明了子采样(不放回)是bagging的一个有效的替代方案.他们证明在大小为$N/2$的样本上生长和平均树是近似等于bagging(考虑偏差及方差),而采用更少的样本则会降低更大的方差(通过去相关处理).

有许多免费的软件实现随机森林.这章中,书中采用R中的randomForest包,由Andy Liaw维护,可以在CRAN网站上得到.这同时允许分割变量选择,以及子采样.Adele Cutler维护一个随机森林的网站∼adele/forests/,其中由Leo Breiman和Adele Cutler编写的软件是免费的.他们的代码,以及名字“random forests”,是专门授权Salford Systems进行商业发行的.新西兰的Waikato大学的Weka机器学习文件提供了随机森林JAVA实现的免费版本.

