删除列后，为什么我的列存在于pyspark数据框中？

debugcn 发表于 Dev

奥尔盖索普

我正在使用pyspark版本2.4.5和Databricks运行时6.5，并且遇到了意外的行为。我的代码如下：

import pyspark.sql.functions as F

df_A = spark.table(...)
df_B = df_A.drop(
    F.col("colA")
)
df_C = df_B.filter(
    F.col("colA") > 0
)

当我通过对df_B进行过滤来分配df_C时，我预计会因为“ colA”已被丢弃而引发错误。但是当我运行它时，此代码可以正常工作。这是预期的还是我缺少了什么？

克里斯

Spark构造了一个有意义的解释计划，并在drop之后应用filter。您可以从说明计划中看到这一点，例如

spark.createDataFrame([('foo','bar')]).drop(col('_2')).filter(col('_2') == 'bar').explain()

给出：

== Physical Plan ==
*(1) Project [_1#0]
+- *(1) Filter (isnotnull(_2#1) && (_2#1 = bar))
   +- Scan ExistingRDD[_1#0,_2#1]

在上述说明计划中，删除列的投影发生在过滤器之后。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

如果列的valueS存在于其他数据框df2中，则从数据框df1中删除行

来自分类Dev

即使列存在于熊猫中，为什么也会出现Key错误？

来自分类Dev

如果列不存在于训练数据中，则从测试数据中删除列 - R

来自分类Dev

为什么git commits存在于我的本地克隆目录中，而不存在于GitHub上？

来自分类Dev

熊猫数据框查找存在于其他列的所有可能值的行

来自分类Dev

为什么我的函数不存在于bundle.js中？

来自分类Dev

删除括号和括号中的内容（如果存在于df列中）

来自分类Dev

为什么！=和<>都存在于postgres中？

来自分类Dev

即使从数据库中删除数据后，数据数组也应存在于变量中

来自分类Dev

order by 列存在于另一个表中并删除多余的行

来自分类Dev

提取数据（如果存在于另一列中）

来自分类Dev

如何检查用户名是否存在于数据库的特定列中

来自分类Dev

如何指示重复性存在于列中

来自分类Dev

如果存在于 csv 文件的列中，则替换值

来自分类Dev

Python - 如果存在于另一个 df 列中，则从 df 列中删除元组

来自分类Dev

当我的键存在于数据集中的每一行时，为什么会出现键错误？

来自分类Dev

为什么我进行分组依据后我的数据框为何掉线？（被删除的列是我用来分组的列之一）

来自分类Dev

文本框文本更改事件以检查用户是否存在于我们的数据库中

来自分类Dev

如果来自一列的数据存在于另一列中，则合并两个数据帧

来自分类Dev

在 Hibernate 中，当对象已存在于数据库中时，为什么 saveOrUpdate 会给出异常

来自分类Dev

如何检查pandas数据框列中的子字符串是否存在于同一数据框中另一列的子字符串中？

来自分类Dev

如何根据值是否存在于另一个数据框中从数据框中删除值？

来自分类Dev

如何在Spark SQL中选择仅存在于我查询的数据子集中的列？

来自分类Dev

如果逗号不存在于 csv 文件的第 6 列中，如何在逗号后添加空格？

来自分类Dev

在Moc A中删除托管对象后，它仍将存在于Moc B中吗？

来自分类Dev

当列实际上存在于数据库中时，ServiceStack OrmLite使用无效的ColumnName错误进行重做

来自分类Dev

EF生成的SQL查询在查询datetime列时返回空结果，但该记录存在于数据库中

来自分类Dev

在大表中选择某些 ID 不存在于同一列中的数据。加快查询

来自分类Dev

从pyspark数据框中的Array列中删除结构

Related 相关文章

文章