用于决策树的spark数据分区

tesnik03 发表于 Dev

tesnik03

我正在阅读spark mllib文档，并且在决策树文档中说-

 Each partition is chosen greedily by selecting the best split from a set 
of possible splits, in order to maximize the information gain at a tree node.

链接在这里。

我无法理解-

我们正在讨论的分区是spark数据分区还是Feature分区
还是可以在每个数据分区上拆分？

苏拉卜

这里对“分区”的引用与spark数据分区无关。这是基于所选功能在树节点上对数据的分区，与算法中的“数据分区”有关。如果检查实际的实现，它将所有需要拆分的节点排入队列，并根据可用内存（config）选择一堆节点。其想法是，如果一堆节点及其节点的统计信息可以减少传递数据的次数功能可以通过1遍完成。然后对于每个节点，它使用features（config）的子集并计算每个功能的统计信息;这给出了一组可能的拆分。然后是驱动程序节点（这里的节点是spark驱动程序机器;术语可能会令人困惑:)）仅发送可能的最佳拆分并增强树。rdd中的每个基准或一行均表示为BaggedTreePoint，并存储有关其当前所属节点的信息。遍历源代码将花费一点时间；但是也许值得。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-28

我来说两句

0条评论

登录后参与评论

上一篇：优化与Django queryset相关的比较

来自分类Dev

Related 相关文章

文章

用于决策树的spark数据分区

用于决策树的spark数据分区

用于决策树的spark数据分区

决策树应用于数据集的问题

如何重塑决策树的数据？

决策树 sklearn : PlayTennis 数据集

决策树深度

Java中的Apache Spark中的决策树实现问题

SPARK：如何为LabeledPoint中的决策树创建categoricalFeaturesInfo？

Spark MLib决策树：按功能标注的概率？

Spark决策树适合1个任务的运行

使用rpart决策树进行数据预测

多种数据类型特征的决策树

决策树学习算法中的重复训练数据

决策树中R数据挖掘的空结果

用Java实现决策树数据库

在数据库中应用决策树

决策树学习算法中的重复训练数据

具有偏向数据集的训练决策树

决策树/树桩与Adaboost

如何存储决策树

验证决策树图

遍历sklearn决策树

交叉验证决策树

试图做出决策树

策划党决策树

如何可视化Spark（pyspark）中的决策树模型？

spark ML决策树如何处理回归问题的连续特征

Spark ML决策树分类器调用随机森林方法

Weka决策树Java列表

用pydot绘制决策树