用于决策树的spark数据分区

tesnik03

我正在阅读spark mllib文档,并且在决策树文档中说-

 Each partition is chosen greedily by selecting the best split from a set 
of possible splits, in order to maximize the information gain at a tree node.

链接在这里 。

我无法理解-

  1. 我们正在讨论的分区是spark数据分区还是Feature分区
  2. 还是可以在每个数据分区上拆分?
苏拉卜

这里对“分区”的引用与spark数据分区无关。这是基于所选功能在树节点上对数据的分区,与算法中的“数据分区”有关。如果检查实际的实现,它将所有需要拆分的节点排入队列,并根据可用内存(config)选择一堆节点。其想法是,如果一堆节点及其节点的统计信息可以减少传递数据的次数功能可以通过1遍完成。然后对于每个节点,它使用features(config)的子集并计算每个功能的统计信息;这给出了一组可能的拆分。然后是驱动程序节点(这里的节点是spark驱动程序机器;术语可能会令人困惑:))仅发送可能的最佳拆分并增强树。rdd中的每个基准或一行均表示为BaggedTreePoint,并存储有关其当前所属节点的信息。遍历源代码将花费一点时间;但是也许值得。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

用于决策树的spark数据分区

来自分类Dev

决策树应用于数据集的问题

来自分类Dev

如何重塑决策树的数据?

来自分类Dev

决策树 sklearn : PlayTennis 数据集

来自分类Dev

决策树深度

来自分类Dev

Java中的Apache Spark中的决策树实现问题

来自分类Dev

SPARK:如何为LabeledPoint中的决策树创建categoricalFeaturesInfo?

来自分类Dev

Spark MLib决策树:按功能标注的概率?

来自分类Dev

Spark决策树适合1个任务的运行

来自分类Dev

使用rpart决策树进行数据预测

来自分类Dev

多种数据类型特征的决策树

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

决策树中R数据挖掘的空结果

来自分类Dev

用Java实现决策树数据库

来自分类Dev

在数据库中应用决策树

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

具有偏向数据集的训练决策树

来自分类Dev

决策树/树桩与Adaboost

来自分类Dev

如何存储决策树

来自分类Dev

验证决策树图

来自分类Dev

遍历sklearn决策树

来自分类Dev

交叉验证决策树

来自分类Dev

试图做出决策树

来自分类Dev

策划党决策树

来自分类Dev

如何可视化Spark(pyspark)中的决策树模型?

来自分类Dev

spark ML决策树如何处理回归问题的连续特征

来自分类Dev

Spark ML决策树分类器调用随机森林方法

来自分类Dev

Weka决策树Java列表

来自分类Dev

用pydot绘制决策树