将 kafka 分区映射到特定的 Spark 执行器

萨米·瓦萨迪

所以我需要指定执行器应该如何使用来自 kafka 主题的数据。

假设我有 2 个主题:t0 和 t1 各有两个分区,以及两个执行程序 e0 和 e1(两者都可以在同一个节点上,因此分配策略不起作用,因为在多执行程序节点的情况下,它基于循环法工作调度,无论第一个可用的执行器使用主题分区)

我想要做的是让 e0 从 t0 和 t1 消耗分区 0,而 e1 从 t0 和 t1 消耗分区 1。除了搞乱日程安排之外没有其他办法吗?如果是这样,最好的方法是什么。

这样做的原因是执行程序将写入 cassandra 数据库,并且由于我们将处于并行上下文中,因此一个执行程序可能会与另一个执行程序“冲突”,因此数据将丢失,通过分配我想强制执行程序处理的分区数据依次。

克里斯·马塔

Spark 2.x 支持使用该assign选项分配分区,更多信息请点击此处

例子:

Dataset<Row> ds2 = spark
  .readStream()
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "t0,t1")
  .option("assign", '{"t0": [0], "t1": [0]}')
  .load()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何设置Spark执行器的数量?

来自分类Dev

分区如何映射到Spark中的任务?

来自分类Dev

在Spark中为每个执行器创建数组并合并到RDD中

来自分类Dev

Spark执行器状态已退出与已杀死之间有什么区别?

来自分类Dev

Kafka主题分区和Spark执行程序映射

来自分类Dev

Scala Spark-将元组的值映射到单个

来自分类Dev

Spark执行器配置

来自分类Dev

从Spark执行器查询cassandra

来自分类Dev

崩溃后如何重新启动Spark执行器(在YARN客户端模式下)?

来自分类Dev

Jupyter笔记本执行器是否在Apache Spark中动态分布?

来自分类Dev

Cassandra + Spark执行器超融合

来自分类Dev

执行器映射未运行功能

来自分类Dev

在执行来自Dataproc集群的Spark作业时,执行器心跳在125009 ms之后超时

来自分类Dev

Spark分区执行器

来自分类Dev

根据执行器,核心和内存确定spark(在YARN上运行)中的分区编号

来自分类Dev

将Spring Boot执行器与New Relic集成

来自分类Dev

将Spark DataFrame写入Kafka会忽略分区列和kafka.partitioner.class

来自分类Dev

将ZFS池映射到分区

来自分类Dev

Scala Spark-将元组的值映射到单个

来自分类Dev

如何调整Spark执行器编号?

来自分类Dev

Spark执行器配置

来自分类Dev

从Spark执行器查询cassandra

来自分类Dev

Spark:整个执行器的唯一ID

来自分类Dev

为什么Spark执行器可以将Shuffle读取超过内存分配?

来自分类Dev

使用Spring的@Scheduled批注和特定的执行器

来自分类Dev

如何将实体从特定服务器映射到表

来自分类Dev

使用 Spark 从 Kafka 主题中的特定分区流式传输数据

来自分类Dev

从 Spark 写入多个 Kafka 分区

来自分类Dev

Spark 执行器在 jdbc 源中没有增加

Related 相关文章

热门标签

归档