Pyspark``for''循环无法使用.filter（）正确过滤pyspark-sql数据帧

debugcn 发表于 Dev

乔安娜

我正在尝试创建一个for循环i，我首先：过滤pyspark sql数据框，然后将过滤后的数据框转换为pandas，对其应用函数，然后将结果填充到名为results的列表中。我的列表包含一个字符串序列（这将是数据框中的ID）；我希望for循环在每次迭代中从列表中获取字符串之一，并过滤ID为该字符串的数据框中的所有行。样例代码：

results = []
for x in list: 
    aux = df.filter("id='x'") 
    final= function(aux,"value") 
    results.append(final)
results

数据帧是一个时间序列，在循环之外，我应用了aux = df.filter("id='x'")转换，然后函数运行没有问题；问题出在循环本身中。但是，当我执行aux.show（）时，它显示了一个空的数据框。数据帧是一个时间序列，在循环之外，我应用了aux = df.filter("id='x'")转换，然后函数运行没有问题；问题出在循环本身中。

有谁知道为什么会这样？

麦克

试试下面的代码。x未在过滤器表达式中替换。

results = []
for x in list: 
    aux = df.filter("id = '%s'" % x) 
    final= function(aux,"value") 
    results.append(final)
results

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

Pyspark``for''循环无法使用.filter（）正确过滤pyspark-sql数据帧

Pyspark``for''循环无法使用.filter（）正确过滤pyspark-sql数据帧

Pyspark 忽略 pyspark-sql-functions 中数据帧的过滤

如何过滤pyspark数据帧

无法使用pyspark数据帧将utm转换为latlong

分组并过滤Pyspark数据帧

Pyspark 数据帧过滤语法错误

熊猫udf在PySpark数据帧行上循环

使用类似SQL的IN子句过滤Pyspark DataFrame

为什么pyspark sql无法使用group by子句正确计数？

是否可以使用命名变量通配符过滤 Pyspark 数据帧？

遍历pyspark中的数据帧

使用列条件随机采样Pyspark数据帧

如何在pyspark数据帧上使用forEachPartition？

使用别名透视和聚合 PySpark 数据帧

如何在使用pyspark从其自己的数据帧中选择的火花数据帧中执行计算

无法将pyspark数据帧加载到决策树算法。它说不能与pyspark数据帧一起使用

无法使用pyspark从xml加载数据

建立方法调用以动态过滤pyspark数据帧

Pyspark数据框SQL

pyspark使用每个id的最小值过滤数据框

在pyspark中使用pandas_udf过滤数据框

使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

根据列中特定值的计数条件过滤出spark数据帧的行[pyspark中的spark.sql语法]

计算pyspark数据帧中的速率

在PySpark / Delta数据帧上高效执行

比较两个数据帧Pyspark

在时间间隔内的Pyspark组数据帧

删除pyspark数据帧中的空格

pyspark数据帧到配置单元表