分区的ORC表在Hive中显示为空

保卫者

我已经将Spark数据帧写入了分区ORC文件,如下所示:

df.repartition("LOADED")\
  .write\
  .partitionBy("LOADED")\
  .format("orc")\
  .save("location")

一切都正确地在磁盘上。之后,我想从中创建一个Hive表,例如:

CREATE TABLE table USING ORC LOCATION 'location'

该命令运行无任何错误。但是,如果我尝试查询该表,则该表为空。

我已经尝试过在不分区的情况下进行同样的操作,并且效果很好。我究竟做错了什么?分区的文件夹如下所示:LOADED=2019-11-16

供参考:我想将数据写入Azure Blob存储,并从另一个群集中的数据创建Hive表。

侦察兵

您只需要更新表上的分区信息,以便Hive可以列出存在的分区。这是通过MSCK REPAIR命令完成的:

spark.sql("MSCK REPAIR TABLE <tableName>")

此处有关此命令的更多信息

这里简单的例子

scala> spark.sql("select * from table").show
20/03/28 17:12:46 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
+------+------+
|column|LOADED|
+------+------+
+------+------+

scala> spark.sql("MSCK REPAIR TABLE table")


scala> spark.sql("select * from table").show
+------+----------+
|column|    LOADED|
+------+----------+
|     a|2019-11-16|
|     c|2019-11-16|
|     b|2019-11-17|
+------+----------+

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何提高将数据从NON分区表加载到HIVE的ORC分区表中的性能

来自分类Dev

在 pyspark 数据帧中读取 Hive 分区 ORC 表时,逻辑和物理计划如何工作

来自分类Dev

将数据从.txt文件加载到在Hive中存储为ORC的表中

来自分类Dev

如何在Hive中将TEXT格式的分区表复制到ORC格式的表

来自分类Dev

将 CSV 数据加载到 Hive ORC 表中

来自分类Dev

Spark读取分区列显示为空

来自分类Dev

将数据从txt表加载到orc表HIVE中-查询

来自分类Dev

SQL分区在SSRS中显示为null

来自分类Dev

在Hive表中插入覆盖分区-值重复

来自分类Dev

在Pig中读取非字符串分区的Hive表

来自分类Dev

Hive中的外部表可以智能识别分区吗?

来自分类Dev

在Hive中删除分区

来自分类Dev

Hive中的分区交换

来自分类Dev

了解Hive中的分区

来自分类Dev

使用Java在Hive中显示创建表

来自分类Dev

当数据表中的日期时间为 01/01/1900 时,在 ListView 中显示空字段

来自分类Dev

无法读取Spark中的ORC事务表。看到空的数据框

来自分类Dev

如何在Hive中获取表是按动态分区还是静态分区

来自分类Dev

创建Hive外部表,路径中没有分区列名称的分区?

来自分类Dev

如何在C ++中检查分区是否为空

来自分类Dev

避免在 Spark Streaming 中为空分区写入文件

来自分类Dev

数据为空时如何在智能表中显示空文本

来自分类Dev

D 盘(SSD 分区)未在 Windows 10 中显示,在磁盘管理中显示为未命名,但在注册表编辑器中已命名

来自分类Dev

如何以Parquet格式将Spark数据帧存储为动态分区的Hive表?

来自分类Dev

如何以Parquet格式将Spark数据帧存储为动态分区的Hive表?

来自分类Dev

如何使用Scala将ORC Hive表从Spark更新

来自分类Dev

Sqoop导入到Hive不会显示在显示表中

来自分类Dev

为什么我的根分区在gparted中显示为已满?

来自分类Dev

Pythonpath在Ubuntu 13.04中显示为空

Related 相关文章

  1. 1

    如何提高将数据从NON分区表加载到HIVE的ORC分区表中的性能

  2. 2

    在 pyspark 数据帧中读取 Hive 分区 ORC 表时,逻辑和物理计划如何工作

  3. 3

    将数据从.txt文件加载到在Hive中存储为ORC的表中

  4. 4

    如何在Hive中将TEXT格式的分区表复制到ORC格式的表

  5. 5

    将 CSV 数据加载到 Hive ORC 表中

  6. 6

    Spark读取分区列显示为空

  7. 7

    将数据从txt表加载到orc表HIVE中-查询

  8. 8

    SQL分区在SSRS中显示为null

  9. 9

    在Hive表中插入覆盖分区-值重复

  10. 10

    在Pig中读取非字符串分区的Hive表

  11. 11

    Hive中的外部表可以智能识别分区吗?

  12. 12

    在Hive中删除分区

  13. 13

    Hive中的分区交换

  14. 14

    了解Hive中的分区

  15. 15

    使用Java在Hive中显示创建表

  16. 16

    当数据表中的日期时间为 01/01/1900 时,在 ListView 中显示空字段

  17. 17

    无法读取Spark中的ORC事务表。看到空的数据框

  18. 18

    如何在Hive中获取表是按动态分区还是静态分区

  19. 19

    创建Hive外部表,路径中没有分区列名称的分区?

  20. 20

    如何在C ++中检查分区是否为空

  21. 21

    避免在 Spark Streaming 中为空分区写入文件

  22. 22

    数据为空时如何在智能表中显示空文本

  23. 23

    D 盘(SSD 分区)未在 Windows 10 中显示,在磁盘管理中显示为未命名,但在注册表编辑器中已命名

  24. 24

    如何以Parquet格式将Spark数据帧存储为动态分区的Hive表?

  25. 25

    如何以Parquet格式将Spark数据帧存储为动态分区的Hive表?

  26. 26

    如何使用Scala将ORC Hive表从Spark更新

  27. 27

    Sqoop导入到Hive不会显示在显示表中

  28. 28

    为什么我的根分区在gparted中显示为已满?

  29. 29

    Pythonpath在Ubuntu 13.04中显示为空

热门标签

归档