我有一个火花数据框df:
A B C D
True True True True
True False True True
True None True None
True NaN NaN False
True NaN True True
pyspark中是否有一种方法可以基于行A,B,C,D中的第五列而不在其中包含值False,而是返回一个int值或True(真)和0(真)。因此:
A B C D E
True True True True 1
True False True True 0
True None True None 1
True NaN NaN False 0
True NaN True True 1
可以在具有功能的pandas数据框中实现这一点df.all().astype(int)
。
pyspark等效的任何帮助,将不胜感激。
我没有要测试的任何内容,但是请尝试以下代码:
df2 = df.withColumn(
'E',
(
(F.greatest(*df.columns) == F.least(*df.columns)) &
(F.least(*df.columns) == F.lit(True))
).cast('int')
)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句