在具有许多功能的JavaRDD中使用选择性功能

Keyur Golani

我在大数据分析应用程序之一中将Spark Mllib与Hadoop一起使用。我有41个功能和一个标签的功能集。现在,在培训期间,我想混合使用我的功能以与功能工程师匹配,并找到最适合我的场景的最小功能集。

为此,我想在训练时选择在训练和测试模型准确性时要使用的功能。

我正在做这个

JavaRDD<LabeledPoint>[] splits = data.randomSplit(new double[] { 0.5, 0.5 });
JavaRDD<LabeledPoint> trainingData = splits[0];
JavaRDD<LabeledPoint> testData = splits[1];

然后使用这些数据训练不同的模型。

modelLR = new LogisticRegressionWithLBFGS().setNumClasses(numClasses).run(trainingData.rdd());
modelRF = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins, seed);
modelNB = NaiveBayes.train(trainingData.rdd(), 1.0);
modelGBT = GradientBoostedTrees.train(trainingData, boostingStrategy);
modelDT = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, impurity, maxDepth, maxBins);

现在,在使用数据集训练模型之前,我想过滤数据以选择要使用的选择性特征。有人可以建议我这样做JavaRDD<LabeledPoint>吗?

如果需要更多详细信息,请随时询问。

Keyur Golani

没关系。我自己想出了答案。

对于任何对此感兴趣的人,我都做了这样的事情。

public static JavaRDD<LabeledPoint> filterData(JavaRDD<LabeledPoint> data, String filterString) {
        return data.map(new Function<LabeledPoint, LabeledPoint>() {
            @Override
            public LabeledPoint call(LabeledPoint point) throws Exception {
                double label = point.label();
                double[] features = point.features().toArray();
                String[] featuresInUse = filterString.split(",");
                double[] filteredFeatures = new double[featuresInUse.length];
                for (int i = 0; i < featuresInUse.length; i++) {
                    filteredFeatures[i] = features[Integer.parseInt(VectorizationProperties.getProperty(featuresInUse[i]))];
                }
                LabeledPoint newPoint = new LabeledPoint(label, Vectors.dense(filteredFeatures));
                System.out.println(newPoint);
                return newPoint;
            }
        });
    }

它将过滤每个记录并返回过滤后的JavaRDD。

请随时询问需要进一步了解的任何详细信息。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

具有许多功能的Julia功能组合

来自分类Dev

具有许多功能的Android自定义视图

来自分类Dev

如何使用ML.Net执行具有许多功能的二进制分类

来自分类Dev

具有许多功能的脚本和具有一个可以完成所有工作的大功能的脚本之间最好的选择是什么?

来自分类Dev

如何开发具有许多功能模块的Web应用程序

来自分类Dev

具有模板Haskell的多功能定义

来自分类Dev

jQuery具有相同变量的多功能

来自分类Dev

在JavaScript中使用多功能数组

来自分类Dev

如何使用python中的许多功能处理LSTM?

来自分类Dev

如何在具有不同功能的asp.net c#形式中使用许多按钮

来自分类Dev

在python循环中定义许多功能

来自分类Dev

在Python中快速评估许多功能

来自分类Dev

调用文档更改的许多功能

来自分类Dev

在python循环中定义许多功能

来自分类Dev

具有C ++迭代器参数的多功能函数

来自分类Dev

如何在Laravel模型中使用多功能

来自分类Dev

具有许多全局功能是否不好?

来自分类Dev

intellij:是否有 emacs 中的选择性撤消功能?

来自分类Dev

AngularJs:具有模板属性功能的指令。如何获得范围值?

来自分类Dev

mysql选择性能(许多具有索引的变量与较少的具有索引的变量)

来自分类Dev

如何在python中进行许多功能的所有组合?

来自分类Dev

具有更多功能重要性的XGBoost功能会降低准确性

来自分类Dev

使用1 Form和许多功能在c#中组织代码

来自分类Dev

使用R中的一个数据评估许多功能

来自分类Dev

使用1 Form和许多功能在C#中组织代码

来自分类Dev

如何直接从Chrome的多功能框中使用Google的“我很幸运”功能进行搜索?

来自分类Dev

R中是否有更好的干净方法来使用一次性功能?

来自分类Dev

在具有多个匹配行的R中使用重塑功能

来自分类Dev

JSDoc无法在具有汇总功能的.MJS文件中使用

Related 相关文章

  1. 1

    具有许多功能的Julia功能组合

  2. 2

    具有许多功能的Android自定义视图

  3. 3

    如何使用ML.Net执行具有许多功能的二进制分类

  4. 4

    具有许多功能的脚本和具有一个可以完成所有工作的大功能的脚本之间最好的选择是什么?

  5. 5

    如何开发具有许多功能模块的Web应用程序

  6. 6

    具有模板Haskell的多功能定义

  7. 7

    jQuery具有相同变量的多功能

  8. 8

    在JavaScript中使用多功能数组

  9. 9

    如何使用python中的许多功能处理LSTM?

  10. 10

    如何在具有不同功能的asp.net c#形式中使用许多按钮

  11. 11

    在python循环中定义许多功能

  12. 12

    在Python中快速评估许多功能

  13. 13

    调用文档更改的许多功能

  14. 14

    在python循环中定义许多功能

  15. 15

    具有C ++迭代器参数的多功能函数

  16. 16

    如何在Laravel模型中使用多功能

  17. 17

    具有许多全局功能是否不好?

  18. 18

    intellij:是否有 emacs 中的选择性撤消功能?

  19. 19

    AngularJs:具有模板属性功能的指令。如何获得范围值?

  20. 20

    mysql选择性能(许多具有索引的变量与较少的具有索引的变量)

  21. 21

    如何在python中进行许多功能的所有组合?

  22. 22

    具有更多功能重要性的XGBoost功能会降低准确性

  23. 23

    使用1 Form和许多功能在c#中组织代码

  24. 24

    使用R中的一个数据评估许多功能

  25. 25

    使用1 Form和许多功能在C#中组织代码

  26. 26

    如何直接从Chrome的多功能框中使用Google的“我很幸运”功能进行搜索?

  27. 27

    R中是否有更好的干净方法来使用一次性功能?

  28. 28

    在具有多个匹配行的R中使用重塑功能

  29. 29

    JSDoc无法在具有汇总功能的.MJS文件中使用

热门标签

归档