Search

Search

Transform RDD in PySpark

debugcn Published at Dev

17

Guforu

For example I have next RDD of the type ((i,j), k):

((0,0), 0)
((0,1), 0)
((1,0), 0)
((1,1), 0)

I want to transform it to another one, which has 1 if i==j. My first attempt is going wrong:

rddnew = rdd.flatMap(lambda ((i,j), k): [if i==j: ((i,j), 1)]))

Can somebody help me to improve this code in python?

eliasah

Here is a solution :

data = [((0, 0), 0), ((0, 1), 0), ((1, 0), 0), ((1, 1), 0)]
rdd = sc.parallelize(data)
rdd2 = rdd.map(lambda ((i, j), _): ((i, j), 1) if (i == j) else ((i, j), 0))
rdd2.collect()
# [((0, 0), 1), ((0, 1), 0), ((1, 0), 0), ((1, 1), 1)]

You can also define a cleaner solution by using a function on the mapper :

def transformation(entry):
    (i, j), v = entry
    return (i, j), v + 1 if i == j else 0

rdd3 = rdd.map(transformation)
rdd3.collect()
# [((0, 0), 1), ((0, 1), 0), ((1, 0), 0), ((1, 1), 1)]

Collected from the Internet

Please contact [email protected] to delete if infringement.

edited at2021-07-18

0

Comments

0 comments

Login to comment

Related

From Dev

Spark: How to transform a Seq of RDD into a RDD

From Dev

PySpark: Using Object in RDD

From Dev

Pyspark: shuffle RDD

From Dev

Show partitions on a pyspark RDD

From Dev

Convert an RDD to iterable: PySpark?

From Dev

collect RDD with buffer in pyspark

From Dev

PySpark repartitioning RDD elements

From Dev

Pyspark RDD .filter() with wildcard

From Dev

Rearranging RDD in PySpark

From Dev

filtering two RDD in pyspark

From Dev

pyspark RDD to DataFrame

From Dev

Pyspark: Converting RDD to RowMatrix

From Dev

PySpark: Convert a pair RDD back to a regular RDD

From Dev

Converting complex RDD to a flatten RDD with PySpark

From Dev

Splitting arrays in RDD partitions in Pyspark

From Dev

PySpark split rows and convert to RDD

From Dev

convert numpy matrix into pyspark rdd

From Dev

Pyspark RDD: find index of an element

From Dev

pyspark : Convert DataFrame to RDD[string]

From Dev

Extracting a dictionary from an RDD in Pyspark

From Dev

Select substring from an RDD in pyspark

From Dev

PySpark - Time Overlap for Object in RDD

From Dev

Saving RDD as sequence file in pyspark

From Dev

PySpark Suggestion on how to organize RDD

From Dev

PySpark RDD processing for sum of parts

From Dev

Splitting arrays in RDD partitions in Pyspark

From Dev

Split RDD into n parts in pySpark

From Dev

Turning an rdd into a local dictionary in PySpark

From Dev

PySpark: convert RDD[DenseVector] to dataframe

Related Related

Article

HotTag

Archive