在 partitionBy() :Spark 2.1.0 之后将数据集/数据帧写入没有列名称的 HDFS 目录

debugcn 发表于 Dev

流浪僧

我正在使用 partitionBy() 按某个 ID 对数据集/数据帧进行分区。但是，当文件被写入时，它会创建一个目录，该目录的名称和列的值由“=”符号分隔。

Seq<String> partitionCols = JavaConversions.asScalaBuffer(Arrays.asList("alert_pas_documentid"));
                fnDatasetWithDocumentID.write().mode("overwrite").partitionBy(partitionCols).json("/user/creando/cdx/alert_pas/");

如何避免获取列名和“=”符号。这是创建的示例目录。

/user/creando/cdx/inv_devices/inv_devices_documentid=700001_596970dba94c040001381a71_700001

列弗

您可以在写入之前重新分区数据集，而不是与作者重新分区，即：

Seq<Column> partitionCols = ...
fnDatasetWithDocumentID.repartition(partitionCols).write().mode("overwrite").json("/user/creando/cdx/alert_pas/");

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-19

我来说两句

0条评论

登录后参与评论

来自分类Dev

Spark迭代HDFS目录

来自分类Dev

安装hadoop_2_6_1_0_129-hdfs

来自分类Dev

hadoop hdfs目录大小显示为0

来自分类Dev

hadoop hdfs目录大小显示为0

来自分类Dev

从HDFS -Spark Scala加载数据

来自分类Dev

在将 Spark 数据集写入 HDFS 期间创建的空分区

来自分类Dev

带有Spark的Hadoop HDFS

来自分类Dev

如何从 HDFS 按名称获取最大目录？

来自分类Dev

为什么H2O要求对HDFS根目录具有写访问权限？

来自分类Dev

将布尔数据帧以1和0写入csv

来自分类Dev

根据Kafka-> Flume-> hdfs接收的消息数据写入自定义HDFS目录

来自分类Dev

Apache Spark如何知道HDFS数据节点？

来自分类Dev

使用Spark DataFrame从HDFS加载数据

来自分类Dev

使用Spark DataFrame从HDFS加载数据

来自分类Dev

使用OOZIE将文件从HDFS的一个目录移动到HDFS的另一目录？

来自分类Dev

有没有办法控制从Spark数据帧创建的hdfs中零件文件的数量？

来自分类Dev

从数据帧“java.lang.IllegalArgumentException: Wrong FS: file:/tmp/spark expected: hdfs://nameservice1”创建 Hive 表时出错

来自分类Dev

Pyspark：hdfs 中没有这样的文件或目录

来自分类Dev

检查失败：mdb_status == 0（2与0）没有这样的文件或目录

来自分类Dev

检查失败：mdb_status == 0（2与0）没有这样的文件或目录

来自分类Dev

如何基于2列数据帧创建具有1和0的矩阵

来自分类Dev

将具有.tsv文件的HDFS目录映射到Hive

来自分类Dev

锁定HDFS中的目录

来自分类Dev

Java：HDFS复制目录

来自分类Dev

遍历hdfs目录

来自分类Dev

锁定HDFS中的目录

来自分类Dev

作为目录的 HDFS“文件”

来自分类Dev

pyspark使用partitionby分区数据

来自分类Dev

将HDFS目录复制到本地节点

Related 相关文章

文章