为什么SparkContext.textFile的partition参数不生效?

阿拉维德·亚拉姆
scala> val p=sc.textFile("file:///c:/_home/so-posts.xml", 8) //i've 8 cores
p: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[56] at textFile at <console>:21

scala> p.partitions.size
res33: Int = 729

我期望可以打印8个,并且在Spark UI中看到729个任务

编辑:

打完电话后repartition(),通过@ zero323建议

scala> p1 = p.repartition(8)
scala> p1.partitions.size
res60: Int = 8
scala> p1.count

即使spark-shell打印出8,我仍然在Spark UI中看到729个任务。

零323

如果您看一下签名

textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] 

您会看到所使用的参数已被调用minPartitions,这几乎描述了它的功能。在某些情况下,即使这被忽略,但这是另一回事。幕后使用的输入格式仍然决定着如何计算分割。

在这种特殊情况下,您可能会使用mapred.min.split.size增加拆分大小(这将在加载期间起作用)或仅repartition在加载后(这将在加载数据后生效)的方法,但是通常不需要这样做。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

为什么-type d参数在find命令中不生效?

来自分类Dev

为什么ticklabel_format不生效?

来自分类Dev

为什么某些umask值不生效?

来自分类Dev

为什么此静态路由不生效?

来自分类Dev

在Spark中,参数“ minPartitions”在SparkContext.textFile(path,minPartitions)中有什么作用?

来自分类Dev

为什么更改全局变量的值不生效?

来自分类Dev

为什么对/ etc / passwd所做的更改不生效?

来自分类Dev

为什么fminsearch不估算参数?

来自分类Dev

为什么参数计数不匹配?

来自分类Dev

构造函数为什么不设置参数?

来自分类Dev

为什么不申请

来自分类Dev

为什么不睡觉?

来自分类Dev

为什么不编译?

来自分类Dev

为什么不编译?

来自分类Dev

为什么不工作?

来自分类Dev

为什么不绑定?

来自分类Dev

为什么不摇动?

来自分类Dev

为什么不表达

来自分类Dev

为什么不申请

来自分类Dev

为什么不增加?

来自分类Dev

为什么不匹配?

来自分类Dev

为什么对/ etc / hosts的更改立即生效?

来自分类Dev

为什么对/ etc / hosts的更改立即生效?

来自分类Dev

为什么此多维数据集的初始旋转在第一次渲染调用时不生效?

来自分类Dev

在Scala中,为什么def重新定义def表达式中使用的变量后def不生效

来自分类Dev

为什么(void)sizeof(param)不“使用”参数?

来自分类Dev

将抽象参数传递给方法,为什么不呢?

来自分类Dev

为什么不评估Emacs lisp函数的参数?

来自分类Dev

为什么不总是根据参数调用__instancecheck__?