Pyspark``for''循环无法使用.filter()正确过滤pyspark-sql数据帧

乔安娜

我正在尝试创建一个for循环i,我首先:过滤pyspark sql数据框,然后将过滤后的数据框转换为pandas,对其应用函数,然后将结果填充到名为results的列表中。我的列表包含一个字符串序列(这将是数据框中的ID);我希望for循环在每次迭代中从列表中获取字符串之一,并过滤ID为该字符串的数据框中的所有行。样例代码:

results = []
for x in list: 
    aux = df.filter("id='x'") 
    final= function(aux,"value") 
    results.append(final)
results

数据帧是一个时间序列,在循环之外,我应用了aux = df.filter("id='x'")转换,然后函数运行没有问题;问题出在循环本身中。但是,当我执行aux.show()时,它显示了一个空的数据框。数据帧是一个时间序列,在循环之外,我应用了aux = df.filter("id='x'")转换,然后函数运行没有问题;问题出在循环本身中。

有谁知道为什么会这样?

麦克

试试下面的代码。x未在过滤器表达式中替换。

results = []
for x in list: 
    aux = df.filter("id = '%s'" % x) 
    final= function(aux,"value") 
    results.append(final)
results

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Pyspark 忽略 pyspark-sql-functions 中数据帧的过滤

来自分类Dev

如何过滤pyspark数据帧

来自分类Dev

无法使用pyspark数据帧将utm转换为latlong

来自分类Dev

分组并过滤Pyspark数据帧

来自分类Dev

Pyspark 数据帧过滤语法错误

来自分类Dev

熊猫udf在PySpark数据帧行上循环

来自分类Dev

使用类似SQL的IN子句过滤Pyspark DataFrame

来自分类Dev

为什么pyspark sql无法使用group by子句正确计数?

来自分类Dev

是否可以使用命名变量通配符过滤 Pyspark 数据帧?

来自分类Dev

遍历pyspark中的数据帧

来自分类Dev

使用列条件随机采样Pyspark数据帧

来自分类Dev

如何在pyspark数据帧上使用forEachPartition?

来自分类Dev

使用别名透视和聚合 PySpark 数据帧

来自分类Dev

如何在使用pyspark从其自己的数据帧中选择的火花数据帧中执行计算

来自分类Dev

无法将pyspark数据帧加载到决策树算法。它说不能与pyspark数据帧一起使用

来自分类Dev

无法使用pyspark从xml加载数据

来自分类Dev

建立方法调用以动态过滤pyspark数据帧

来自分类Dev

Pyspark数据框SQL

来自分类Dev

pyspark使用每个id的最小值过滤数据框

来自分类Dev

在pyspark中使用pandas_udf过滤数据框

来自分类Dev

使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

来自分类Dev

通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

来自分类Dev

根据列中特定值的计数条件过滤出spark数据帧的行[pyspark中的spark.sql语法]

来自分类Dev

计算pyspark数据帧中的速率

来自分类Dev

在PySpark / Delta数据帧上高效执行

来自分类Dev

比较两个数据帧Pyspark

来自分类Dev

在时间间隔内的Pyspark组数据帧

来自分类Dev

删除pyspark数据帧中的空格

来自分类Dev

pyspark数据帧到配置单元表

Related 相关文章

  1. 1

    Pyspark 忽略 pyspark-sql-functions 中数据帧的过滤

  2. 2

    如何过滤pyspark数据帧

  3. 3

    无法使用pyspark数据帧将utm转换为latlong

  4. 4

    分组并过滤Pyspark数据帧

  5. 5

    Pyspark 数据帧过滤语法错误

  6. 6

    熊猫udf在PySpark数据帧行上循环

  7. 7

    使用类似SQL的IN子句过滤Pyspark DataFrame

  8. 8

    为什么pyspark sql无法使用group by子句正确计数?

  9. 9

    是否可以使用命名变量通配符过滤 Pyspark 数据帧?

  10. 10

    遍历pyspark中的数据帧

  11. 11

    使用列条件随机采样Pyspark数据帧

  12. 12

    如何在pyspark数据帧上使用forEachPartition?

  13. 13

    使用别名透视和聚合 PySpark 数据帧

  14. 14

    如何在使用pyspark从其自己的数据帧中选择的火花数据帧中执行计算

  15. 15

    无法将pyspark数据帧加载到决策树算法。它说不能与pyspark数据帧一起使用

  16. 16

    无法使用pyspark从xml加载数据

  17. 17

    建立方法调用以动态过滤pyspark数据帧

  18. 18

    Pyspark数据框SQL

  19. 19

    pyspark使用每个id的最小值过滤数据框

  20. 20

    在pyspark中使用pandas_udf过滤数据框

  21. 21

    使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

  22. 22

    通过 pyspark.sql.dataframe 将 XML 数据转换为 Pandas 数据帧

  23. 23

    根据列中特定值的计数条件过滤出spark数据帧的行[pyspark中的spark.sql语法]

  24. 24

    计算pyspark数据帧中的速率

  25. 25

    在PySpark / Delta数据帧上高效执行

  26. 26

    比较两个数据帧Pyspark

  27. 27

    在时间间隔内的Pyspark组数据帧

  28. 28

    删除pyspark数据帧中的空格

  29. 29

    pyspark数据帧到配置单元表

热门标签

归档