为什么SparkContext.textFile的partition参数不生效？

Aravind Yarram 发表于 Dev

阿拉维德·亚拉姆

scala> val p=sc.textFile("file:///c:/_home/so-posts.xml", 8) //i've 8 cores
p: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[56] at textFile at <console>:21

scala> p.partitions.size
res33: Int = 729

我期望可以打印8个，并且在Spark UI中看到729个任务

编辑：

打完电话后repartition()，通过@ zero323建议

scala> p1 = p.repartition(8)
scala> p1.partitions.size
res60: Int = 8
scala> p1.count

即使spark-shell打印出8，我仍然在Spark UI中看到729个任务。

零323

如果您看一下签名

textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]

您会看到所使用的参数已被调用minPartitions，这几乎描述了它的功能。在某些情况下，即使这被忽略，但这是另一回事。幕后使用的输入格式仍然决定着如何计算分割。

在这种特殊情况下，您可能会使用mapred.min.split.size增加拆分大小（这将在加载期间起作用）或仅repartition在加载后（这将在加载数据后生效）的方法，但是通常不需要这样做。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-24

我来说两句

0条评论

登录后参与评论

上一篇：将数据从Postgres索引到Solr / ElasticSearch

来自分类Dev

为什么-type d参数在find命令中不生效？

来自分类Dev

为什么ticklabel_format不生效？

来自分类Dev

为什么某些umask值不生效？

来自分类Dev

为什么此静态路由不生效？

来自分类Dev

在Spark中，参数“ minPartitions”在SparkContext.textFile（path，minPartitions）中有什么作用？

来自分类Dev

为什么更改全局变量的值不生效？

来自分类Dev

为什么对/ etc / passwd所做的更改不生效？

来自分类Dev

为什么fminsearch不估算参数？

来自分类Dev

为什么参数计数不匹配？

来自分类Dev

构造函数为什么不设置参数？

来自分类Dev

为什么不申请

来自分类Dev

为什么不睡觉？

来自分类Dev

为什么不编译？

来自分类Dev

为什么不编译？

来自分类Dev

为什么不工作？

来自分类Dev

为什么不绑定？

来自分类Dev

为什么不摇动？

来自分类Dev

为什么不表达

来自分类Dev

为什么不申请

来自分类Dev

为什么不增加？

来自分类Dev

为什么不匹配？

来自分类Dev

为什么对/ etc / hosts的更改立即生效？

来自分类Dev

为什么对/ etc / hosts的更改立即生效？

来自分类Dev

为什么此多维数据集的初始旋转在第一次渲染调用时不生效？

来自分类Dev

在Scala中，为什么def重新定义def表达式中使用的变量后def不生效

来自分类Dev

为什么（void）sizeof（param）不“使用”参数？

来自分类Dev

将抽象参数传递给方法，为什么不呢？

来自分类Dev

为什么不评估Emacs lisp函数的参数？

来自分类Dev

为什么不总是根据参数调用instancecheck？

Related 相关文章

文章