在Spark Streaming中,我们可以将数据(哈希图)存储在Executor内存中吗

苏尼尔普

我想在Spark Executors内存(长寿命缓存)中维护一个缓存(HashMap),以便在执行器上运行的所有任务(在不同时间)都可以在那里进行查找,并且还可以更新缓存。

Spark流中有可能吗?

干燥

我不确定是否有一种方法可以在执行程序上永久存储自定义数据结构。我的建议是使用某些外部缓存系统(在某些情况下,例如Redis,Memcached甚至ZooKeeper)。您可以使用类似方法foreachPartitionmapPartitions在处理RDD / DataFrame的过程中进一步连接到该系统,以将连接数减少到每个分区1个连接。

之所以可行,是因为Redis和Memcached都是内存中的存储,因此不会有将数据溢出到磁盘的开销。

在执行程序之间分配某些状态的其他两种方法是Accumulators和Broadcast变量。对于累加器,所有执行者都可以向其中写入,但只能由驱动程序执行读取。对于广播变量,您只能在驱动程序上写入一次,然后将其作为只读数据结构分发给执行者。两种情况都不适合您,因此所描述的解决方案是我在这里看到的唯一可能方法。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

我们可以在不爆炸 hive/spark 中的行的情况下进行汇总或多维数据集吗

来自分类Dev

将数据存储在Spark的内存中

来自分类Dev

我们可以将一个动作应用于Spark中的另一个动作吗?

来自分类Dev

我们可以在创建 spark 会话后更改 spark.dynamicAllocation.minExecutors 吗?

来自分类Dev

Spark中的内存数据集

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

我们可以将关系数据存储在hdfs中吗

来自分类Dev

我们可以在IDE中使用spark.sql API创建表吗

来自分类Dev

在 Spark-on-Yarn 中配置 Executor 和 Driver 内存

来自分类Dev

Spark如何将数据加载到内存中

来自分类Dev

我们可以根据其类型(MR,SPARK)将hadoop应用分配给公平调度器队列吗?

来自分类Dev

我们可以根据其类型(MR,SPARK)将hadoop应用程序分配给公平调度器队列吗?

来自分类Dev

我们可以清除 Ubuntu 中的内存缓存吗

来自分类Dev

我可以在CDH中安装多个Spark版本吗?

来自分类Dev

我可以在CDH中安装多个Spark版本吗?

来自分类Dev

我们如何在Spark结构化流中管理偏移量?(_spark_metadata问题)

来自分类Dev

Spark Streaming中的顺序处理

来自分类Dev

Spark Streaming中的并发操作

来自分类Dev

在Spark Streaming中缓存DStream

来自分类Dev

我们可以将“ cd ..”路径存储在bash文件中的变量中吗?

来自分类Dev

在sbt中,我们如何指定Spark依赖的hadoop版本?

来自分类Dev

如何在Scala Spark中持久保存我们从dataFrame动态创建的列表

来自分类Dev

为什么我们在spark中需要两个不同的conf文件?

来自分类Dev

在 Spark Window 函数中,为什么我们需要在最后使用 drop()

来自分类Dev

我们可以使用 apache spark 为斐波那契数列实现并行代码吗

来自分类Dev

我们可以在文件中存储多个对象吗?

来自分类Dev

我们可以在文件中存储多个对象吗?

来自分类Dev

如何将Spark Streaming数据转换为Spark DataFrame

Related 相关文章

  1. 1

    我们可以在不爆炸 hive/spark 中的行的情况下进行汇总或多维数据集吗

  2. 2

    将数据存储在Spark的内存中

  3. 3

    我们可以将一个动作应用于Spark中的另一个动作吗?

  4. 4

    我们可以在创建 spark 会话后更改 spark.dynamicAllocation.minExecutors 吗?

  5. 5

    Spark中的内存数据集

  6. 6

    Spark Streaming + Spark SQL

  7. 7

    Spark Streaming + Spark SQL

  8. 8

    我们可以将关系数据存储在hdfs中吗

  9. 9

    我们可以在IDE中使用spark.sql API创建表吗

  10. 10

    在 Spark-on-Yarn 中配置 Executor 和 Driver 内存

  11. 11

    Spark如何将数据加载到内存中

  12. 12

    我们可以根据其类型(MR,SPARK)将hadoop应用分配给公平调度器队列吗?

  13. 13

    我们可以根据其类型(MR,SPARK)将hadoop应用程序分配给公平调度器队列吗?

  14. 14

    我们可以清除 Ubuntu 中的内存缓存吗

  15. 15

    我可以在CDH中安装多个Spark版本吗?

  16. 16

    我可以在CDH中安装多个Spark版本吗?

  17. 17

    我们如何在Spark结构化流中管理偏移量?(_spark_metadata问题)

  18. 18

    Spark Streaming中的顺序处理

  19. 19

    Spark Streaming中的并发操作

  20. 20

    在Spark Streaming中缓存DStream

  21. 21

    我们可以将“ cd ..”路径存储在bash文件中的变量中吗?

  22. 22

    在sbt中,我们如何指定Spark依赖的hadoop版本?

  23. 23

    如何在Scala Spark中持久保存我们从dataFrame动态创建的列表

  24. 24

    为什么我们在spark中需要两个不同的conf文件?

  25. 25

    在 Spark Window 函数中,为什么我们需要在最后使用 drop()

  26. 26

    我们可以使用 apache spark 为斐波那契数列实现并行代码吗

  27. 27

    我们可以在文件中存储多个对象吗?

  28. 28

    我们可以在文件中存储多个对象吗?

  29. 29

    如何将Spark Streaming数据转换为Spark DataFrame

热门标签

归档