如何基于if条件在Spark rdd map动作中跳过行

用户3494047

我有一个文件,我想将其提供给mllib算法。因此,我按照示例进行操作,例如:

val data = sc.textFile(my_file).
    map {line =>

        val parts = line.split(",");
        Vectors.dense(parts.slice(1, parts.length).map(x => x.toDouble).toArray)
};

这行得通,但是有时候我缺少一个功能。有时某一行的一列没有任何数据,我想扔掉这样的行。

所以我想做这样的事情 map{line => if(containsMissing(line) == true){ skipLine} else{ ... //same as before}}

我该如何执行skipLine操作?

一点点

您可以使用filterfunction过滤掉这些行:

val data = sc.textFile(my_file)
   .filter(_.split(",").length == cols)
   .map {line =>
        // your code
   };

假设变量cols保存有效行中的列数。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何基于Java中的特定字段值过滤Spark RDD?

来自分类Dev

如何根据基于Spark中另一个RDD的函数过滤RDD?

来自分类Dev

根据SPARK scala中的条件处理RDD

来自分类Dev

如何获得Spark RDD的第n行?

来自分类Dev

如何从Spark中的RDD和DataFrame过滤?

来自分类Dev

如何列出Spark Shell中定义的RDD?

来自分类Dev

如何减少RDD在Apache Spark中的工作

来自分类Dev

RDD.map 函数在 Spark 中挂起

来自分类Dev

从Spark RDD中删除元素

来自分类Dev

在Scala Spark中嵌套RDD

来自分类Dev

从Spark RDD中删除元素

来自分类Dev

无法将数组RDD转换为Spark中的列表RDD

来自分类Dev

如何在 spark scala 中将基于 cuontry 的所有行分类保存回具有相同格式的 rdd?

来自分类Dev

Spark中的rdd.map函数可以在特定条件下没有返回吗?

来自分类Dev

如何在Spark中向现有RDD添加更多RDD?

来自分类Dev

在 Spark 中,如何将我的 RDD 转换为 RDD 项之间的差异列表?

来自分类Dev

除非访问了RDD中的项目,否则Spark的RDD.map()将不会执行

来自分类Dev

如何基于Spark Scala中的条件获取结果

来自分类Dev

如何在Scala Spark中对RDD进行排序?

来自分类Dev

如何在Spark中打印特定RDD分区的元素?

来自分类常见问题

如何在Scala的Spark RDD中避免使用collect?

来自分类Dev

如何在Spark RDD(Java)中按索引获取元素

来自分类Dev

如何在Spark RDD中获得平均和总和

来自分类Dev

在Apache Spark中,如何使RDD / DataFrame操作变得懒惰?

来自分类Dev

如何在Spark的RDD中获得元素位置?

来自分类Dev

如何检查Spark RDD是否在内存中?

来自分类Dev

如何在Apache Spark的RDD中传递血统

来自分类Dev

如何在Spark中明确实现RDD

来自分类Dev

DataFrame API如何取决于Spark中的RDD?

Related 相关文章

  1. 1

    如何基于Java中的特定字段值过滤Spark RDD?

  2. 2

    如何根据基于Spark中另一个RDD的函数过滤RDD?

  3. 3

    根据SPARK scala中的条件处理RDD

  4. 4

    如何获得Spark RDD的第n行?

  5. 5

    如何从Spark中的RDD和DataFrame过滤?

  6. 6

    如何列出Spark Shell中定义的RDD?

  7. 7

    如何减少RDD在Apache Spark中的工作

  8. 8

    RDD.map 函数在 Spark 中挂起

  9. 9

    从Spark RDD中删除元素

  10. 10

    在Scala Spark中嵌套RDD

  11. 11

    从Spark RDD中删除元素

  12. 12

    无法将数组RDD转换为Spark中的列表RDD

  13. 13

    如何在 spark scala 中将基于 cuontry 的所有行分类保存回具有相同格式的 rdd?

  14. 14

    Spark中的rdd.map函数可以在特定条件下没有返回吗?

  15. 15

    如何在Spark中向现有RDD添加更多RDD?

  16. 16

    在 Spark 中,如何将我的 RDD 转换为 RDD 项之间的差异列表?

  17. 17

    除非访问了RDD中的项目,否则Spark的RDD.map()将不会执行

  18. 18

    如何基于Spark Scala中的条件获取结果

  19. 19

    如何在Scala Spark中对RDD进行排序?

  20. 20

    如何在Spark中打印特定RDD分区的元素?

  21. 21

    如何在Scala的Spark RDD中避免使用collect?

  22. 22

    如何在Spark RDD(Java)中按索引获取元素

  23. 23

    如何在Spark RDD中获得平均和总和

  24. 24

    在Apache Spark中,如何使RDD / DataFrame操作变得懒惰?

  25. 25

    如何在Spark的RDD中获得元素位置?

  26. 26

    如何检查Spark RDD是否在内存中?

  27. 27

    如何在Apache Spark的RDD中传递血统

  28. 28

    如何在Spark中明确实现RDD

  29. 29

    DataFrame API如何取决于Spark中的RDD?

热门标签

归档