Apache Spark,找到键值对的最大值?

阿努普·托菲(Anoop Toffy)

找到给定RDD的(k,v)的最大值,怎么办?

我尝试了以下操作:RDD.map(lambda(k,v):(k,v))。takeOrdered(1,key = lambda x:-len(x [1]))

有更好的选择吗?

拉维·香卡(Ravi Shankar)
 JavaRDD<String> input = sc.textFile("README.md");
 JavaRDD<Tuple2< Integer,String>> tupleRDD = input.map(new Function<String, Tuple2<Integer,String>>() {

        @Override
        public Tuple2<Integer, String> call(String v1) throws Exception {
            return new Tuple2< Integer,String>(v1.split(" ").length, v1);
        }
    });
    JavaRDD<Tuple2<Integer,String>> tupleRDD1=  tupleRDD.sortBy(new Function<Tuple2<Integer,String>, Integer>() {

        @Override
        public Integer call(Tuple2<Integer, String> v1) throws Exception {
            // TODO Auto-generated method stub
            return v1._1;
        }
    }, false, 1);
    System.out.println(tupleRDD1.first());

在这里,我已经阅读了一个文件,并将其在空间上分割,并将其存储在地图中,单词数作为键,行本身作为值。然后使用map(Integer)的第一个值对它们进行降序排序。这样,rdd的第一个元素的长度最大。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Apache Spark,找到键值对的最大值?

来自分类Dev

Apache Derby 从表中提取最大值

来自分类Dev

在Apache配置中,“每个孩子的最大连接数”的建议最大值是多少?

来自分类Dev

在Apache配置中,“每个孩子的最大连接数”的建议最大值是多少?

来自分类Dev

Apache Spark与Apache Ignite

来自分类Dev

如何找到最大值?

来自分类Dev

Apache Pig 从具有组的数据集中获取最大值

来自分类Dev

如何找到这些值的最大值

来自分类Dev

在PHP数组中找到最大值

来自分类Dev

平滑数据并找到最大值

来自分类Dev

找到最大值的打印列

来自分类Dev

R:找到密度图的最大值

来自分类Dev

递归如何找到最大值?

来自分类Dev

如何从列中找到最大值

来自分类Dev

如何从字典中找到最大值?

来自分类Dev

找到最大值的打印列

来自分类Dev

Excel查询分组并找到最大值

来自分类Dev

Excel如何找到最大值

来自分类Dev

在循环中找到最大值

来自分类Dev

从文件创建列表并找到最大值

来自分类Dev

在元组向量中找到最大值

来自分类Dev

如何从结构中找到最大值?

来自分类Dev

如何找到数组中的最大值?

来自分类Dev

在 clingo 中找到原子的最大值

来自分类Dev

使用Apache Spark从HDFS序列文件中创建键值对

来自分类Dev

php数组中每个键值的最大值

来自分类Dev

php数组中每个键值的最大值

来自分类Dev

在键值对的 PCollection 中查找具有最大值的键

来自分类Dev

Spark Scala DataFrame查找最大值