Pyspark 数据帧过滤语法错误

乔哈布

我正在使用 Pyspark 1.6 版处理 Pyspark 数据框。在将此数据框导出到 .CSV 文件之前,我需要在特定列上使用 LIKE 和 OR 运算符根据特定条件过滤数据。为了让您了解我到目前为止所做的工作,我从多个 .JSON 文件创建了初始数据框。此数据框已被子集化,因此仅包含所需的列。然后创建了一个 sqlContext 临时表。到目前为止,我尝试了两种不同的方法,使用 sqlContext 和使用 Pyspark 方法。

sqlContext 方法:

df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR 'abc' OR 'ghi' OR 'jkl' OR '#mno' OR '#1234' OR '56789'")

这是我在运行 sqlContext 方法时看到的错误消息:

pyspark.sql.utils.AnalysisException: u"cannot resolve '(text LIKE #abc || abc)' due to data type mismatch: differing types in '(text LIKE #abc || abc)' (boolean and string).;" 

pyspark方法:

df_filtered.where((df["text"].like ("#abc")) || ((brexit_april_2016["text"].like ("abc")) || ((brexit_april_2016["text"].like ("#ghi")) || ((brexit_april_2016["text"].like ("jkl")) || ((brexit_april_2016["text"].like ("#mno")) || ((brexit_april_2016["text"].like ("1234")) || ((brexit_april_2016["text"].like ("56789"))

运行 pyspark 方法时,出现语法错误。

我敢肯定,我在这里搞砸了一些非常简单的事情,但我希望得到一些帮助。

谢谢!

安舒尔·乔希
df_filtered = df.filter(
    (df.text.like("#abc")) | (df.text.like("abc")))

"like" and or ("|") 在 PySpark 中应该像这样使用。您可以根据需要添加更多条件。

我希望这有帮助。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何过滤pyspark数据帧

来自分类Dev

分组并过滤Pyspark数据帧

来自分类Dev

Pyspark 忽略 pyspark-sql-functions 中数据帧的过滤

来自分类Dev

根据列中特定值的计数条件过滤出spark数据帧的行[pyspark中的spark.sql语法]

来自分类Dev

建立方法调用以动态过滤pyspark数据帧

来自分类Dev

Pyspark``for''循环无法使用.filter()正确过滤pyspark-sql数据帧

来自分类Dev

遍历pyspark中的数据帧

来自分类Dev

删除pyspark数据帧时遇到内存错误

来自分类Dev

pyspark 中的种子 = 5L 使用 Python 3 返回语法错误

来自分类Dev

Pyspark如何过滤掉列表中存在的数据帧中的数据

来自分类Dev

PySpark:按其他表中的子字符串过滤数据帧

来自分类Dev

Pyspark:如何根据字符串和不存在前缀来过滤数据帧?

来自分类Dev

根据两列之间的时间差过滤pyspark数据帧

来自分类Dev

是否可以使用命名变量通配符过滤 Pyspark 数据帧?

来自分类Dev

计算pyspark数据帧中的速率

来自分类Dev

在PySpark / Delta数据帧上高效执行

来自分类Dev

比较两个数据帧Pyspark

来自分类Dev

在时间间隔内的Pyspark组数据帧

来自分类Dev

删除pyspark数据帧中的空格

来自分类Dev

pyspark数据帧到配置单元表

来自分类Dev

如何在pyspark中转置数据帧?

来自分类Dev

如何从 PySpark 中的 RDD 创建数据帧?

来自分类Dev

pyspark中数据帧的稀疏向量

来自分类Dev

数据帧到 rdd python/spark/pyspark

来自分类Dev

Pyspark 数据帧中的 Timedelta - TypeError

来自分类Dev

从 PySpark 数据帧中创建嵌套的 JSON

来自分类Dev

Pyspark DataFrame过滤

来自分类Dev

pySpark数据框过滤器方法

来自分类Dev

Pyspark多重过滤器数据框

Related 相关文章

热门标签

归档