Pyspark 数据帧过滤语法错误

debugcn 发表于 Dev

乔哈布

我正在使用 Pyspark 1.6 版处理 Pyspark 数据框。在将此数据框导出到 .CSV 文件之前，我需要在特定列上使用 LIKE 和 OR 运算符根据特定条件过滤数据。为了让您了解我到目前为止所做的工作，我从多个 .JSON 文件创建了初始数据框。此数据框已被子集化，因此仅包含所需的列。然后创建了一个 sqlContext 临时表。到目前为止，我尝试了两种不同的方法，使用 sqlContext 和使用 Pyspark 方法。

sqlContext 方法：

df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR 'abc' OR 'ghi' OR 'jkl' OR '#mno' OR '#1234' OR '56789'")

这是我在运行 sqlContext 方法时看到的错误消息：

pyspark.sql.utils.AnalysisException: u"cannot resolve '(text LIKE #abc || abc)' due to data type mismatch: differing types in '(text LIKE #abc || abc)' (boolean and string).;"

pyspark方法：

df_filtered.where((df["text"].like ("#abc")) || ((brexit_april_2016["text"].like ("abc")) || ((brexit_april_2016["text"].like ("#ghi")) || ((brexit_april_2016["text"].like ("jkl")) || ((brexit_april_2016["text"].like ("#mno")) || ((brexit_april_2016["text"].like ("1234")) || ((brexit_april_2016["text"].like ("56789"))

运行 pyspark 方法时，出现语法错误。

我敢肯定，我在这里搞砸了一些非常简单的事情，但我希望得到一些帮助。

谢谢！

安舒尔·乔希

df_filtered = df.filter(
    (df.text.like("#abc")) | (df.text.like("abc")))

"like" and or ("|") 在 PySpark 中应该像这样使用。您可以根据需要添加更多条件。

我希望这有帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-14

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

Pyspark 数据帧过滤语法错误

Pyspark 数据帧过滤语法错误

如何过滤pyspark数据帧

分组并过滤Pyspark数据帧

Pyspark 忽略 pyspark-sql-functions 中数据帧的过滤

根据列中特定值的计数条件过滤出spark数据帧的行[pyspark中的spark.sql语法]

建立方法调用以动态过滤pyspark数据帧

Pyspark``for''循环无法使用.filter（）正确过滤pyspark-sql数据帧

遍历pyspark中的数据帧

删除pyspark数据帧时遇到内存错误

pyspark 中的种子 = 5L 使用 Python 3 返回语法错误

Pyspark如何过滤掉列表中存在的数据帧中的数据

PySpark：按其他表中的子字符串过滤数据帧

Pyspark：如何根据字符串和不存在前缀来过滤数据帧？

根据两列之间的时间差过滤pyspark数据帧

是否可以使用命名变量通配符过滤 Pyspark 数据帧？

计算pyspark数据帧中的速率

在PySpark / Delta数据帧上高效执行

比较两个数据帧Pyspark

在时间间隔内的Pyspark组数据帧

删除pyspark数据帧中的空格

pyspark数据帧到配置单元表

如何在pyspark中转置数据帧？

如何从 PySpark 中的 RDD 创建数据帧？

pyspark中数据帧的稀疏向量

数据帧到 rdd python/spark/pyspark

Pyspark 数据帧中的 Timedelta - TypeError

从 PySpark 数据帧中创建嵌套的 JSON

Pyspark DataFrame过滤

pySpark数据框过滤器方法

Pyspark多重过滤器数据框