谁能解释scikit learning中RandomForestClassifier和ExtraTreesClassifier之间的区别。我花了很多时间阅读本文:
P. Geurts,D.Ernst。和L.Wehenkel,“极随机树”,Machine Learning,63(1),3-42,2006年
看来这些是ET的区别:
1)在拆分时选择变量时,将从整个训练集中抽取样本,而不是从训练集中的引导样本中抽取样本。
2)每次从样本中的值范围中完全随机选择分割。
这两件事的结果是更多的“叶子”。
是的,两个结论都是正确的,尽管scikit-learn中的Random Forest实现使启用或禁用引导程序重采样成为可能。
实际上,RF通常比ET更紧凑。从计算的角度来看,ET通常较便宜,但会变得更大。ET有时可以比RF更好地进行泛化,但是如果不先尝试(和进行调优n_estimators
,max_features
并min_samples_split
通过交叉验证的网格搜索),很难猜测是什么情况。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句