具有一棵树的随机森林的性能要比单个决策树差?

回声缓存

我正在分析一项医院研究的医学数据,如果我使用的是只有一棵树的随机森林,则交叉验证分数会很差(表明过度拟合),而如果我使用决策树,则分数值实际上很不错。两个分类器具有相同的深度参数。那么如何解释这种行为呢?

戴维·ND

决策树的构建过程通常包括修剪,修剪是为了减少深度并避免过度拟合而进行的后验。随机森林不使用此方法,因为它实际上通过对过度拟合的决策树求平均值来利用它们的高方差。

此外,决策树将通过在整个数据集上进行训练而构建,而“随机森林”树将在训练数据集的引导程序上进行构建,这可能会转化为较差的性能,因为它将偏向于已记录的记录。包括多次采样。同样,随机森林通过对多个树进行平均来利用此优势,但这是一个缺点。

总之,性能上的差异不足为奇。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章