将 kafka 分区映射到特定的 Spark 执行器

debugcn 发表于 Dev

萨米·瓦萨迪

所以我需要指定执行器应该如何使用来自 kafka 主题的数据。

假设我有 2 个主题：t0 和 t1 各有两个分区，以及两个执行程序 e0 和 e1（两者都可以在同一个节点上，因此分配策略不起作用，因为在多执行程序节点的情况下，它基于循环法工作调度，无论第一个可用的执行器使用主题分区）

我想要做的是让 e0 从 t0 和 t1 消耗分区 0，而 e1 从 t0 和 t1 消耗分区 1。除了搞乱日程安排之外没有其他办法吗？如果是这样，最好的方法是什么。

这样做的原因是执行程序将写入 cassandra 数据库，并且由于我们将处于并行上下文中，因此一个执行程序可能会与另一个执行程序“冲突”，因此数据将丢失，通过分配我想强制执行程序处理的分区数据依次。

克里斯·马塔

Spark 2.x 支持使用该assign选项分配分区，更多信息请点击此处。

例子：

Dataset<Row> ds2 = spark
  .readStream()
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "t0,t1")
  .option("assign", '{"t0": [0], "t1": [0]}')
  .load()

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-8

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何设置Spark执行器的数量？

来自分类Dev

分区如何映射到Spark中的任务？

来自分类Dev

在Spark中为每个执行器创建数组并合并到RDD中

来自分类Dev

Spark执行器状态已退出与已杀死之间有什么区别？

来自分类Dev

Kafka主题分区和Spark执行程序映射

来自分类Dev

Scala Spark-将元组的值映射到单个

来自分类Dev

Spark执行器配置

来自分类Dev

从Spark执行器查询cassandra

来自分类Dev

崩溃后如何重新启动Spark执行器（在YARN客户端模式下）？

来自分类Dev

Jupyter笔记本执行器是否在Apache Spark中动态分布？

来自分类Dev

Cassandra + Spark执行器超融合

来自分类Dev

执行器映射未运行功能

来自分类Dev

在执行来自Dataproc集群的Spark作业时，执行器心跳在125009 ms之后超时

来自分类Dev

Spark分区执行器

来自分类Dev

根据执行器，核心和内存确定spark（在YARN上运行）中的分区编号

来自分类Dev

将Spring Boot执行器与New Relic集成

来自分类Dev

将Spark DataFrame写入Kafka会忽略分区列和kafka.partitioner.class

来自分类Dev

将ZFS池映射到分区

来自分类Dev

Scala Spark-将元组的值映射到单个

来自分类Dev

如何调整Spark执行器编号？

来自分类Dev

Spark执行器配置

来自分类Dev

从Spark执行器查询cassandra

来自分类Dev

Spark：整个执行器的唯一ID

来自分类Dev

为什么Spark执行器可以将Shuffle读取超过内存分配？

来自分类Dev

使用Spring的@Scheduled批注和特定的执行器

来自分类Dev

如何将实体从特定服务器映射到表

来自分类Dev

使用 Spark 从 Kafka 主题中的特定分区流式传输数据

来自分类Dev

从 Spark 写入多个 Kafka 分区

来自分类Dev

Spark 执行器在 jdbc 源中没有增加

Related 相关文章

文章