在Spark Streaming中，我们可以将数据（哈希图）存储在Executor内存中吗

sunillp 发表于 Dev

苏尼尔普

我想在Spark Executors内存（长寿命缓存）中维护一个缓存（HashMap），以便在执行器上运行的所有任务（在不同时间）都可以在那里进行查找，并且还可以更新缓存。

Spark流中有可能吗？

干燥

我不确定是否有一种方法可以在执行程序上永久存储自定义数据结构。我的建议是使用某些外部缓存系统（在某些情况下，例如Redis，Memcached甚至ZooKeeper）。您可以使用类似方法foreachPartition或mapPartitions在处理RDD / DataFrame的过程中进一步连接到该系统，以将连接数减少到每个分区1个连接。

之所以可行，是因为Redis和Memcached都是内存中的存储，因此不会有将数据溢出到磁盘的开销。

在执行程序之间分配某些状态的其他两种方法是Accumulators和Broadcast变量。对于累加器，所有执行者都可以向其中写入，但只能由驱动程序执行读取。对于广播变量，您只能在驱动程序上写入一次，然后将其作为只读数据结构分发给执行者。两种情况都不适合您，因此所描述的解决方案是我在这里看到的唯一可能方法。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-4

我来说两句

0条评论

登录后参与评论

上一篇：Locals窗口为空（Visual Studio 2015）

来自分类Dev

Related 相关文章

文章

在Spark Streaming中，我们可以将数据（哈希图）存储在Executor内存中吗

在Spark Streaming中，我们可以将数据（哈希图）存储在Executor内存中吗

我们可以在不爆炸 hive/spark 中的行的情况下进行汇总或多维数据集吗

将数据存储在Spark的内存中

我们可以将一个动作应用于Spark中的另一个动作吗？

我们可以在创建 spark 会话后更改 spark.dynamicAllocation.minExecutors 吗？

Spark中的内存数据集

Spark Streaming + Spark SQL

Spark Streaming + Spark SQL

我们可以将关系数据存储在hdfs中吗

我们可以在IDE中使用spark.sql API创建表吗

在 Spark-on-Yarn 中配置 Executor 和 Driver 内存

Spark如何将数据加载到内存中

我们可以根据其类型（MR，SPARK）将hadoop应用分配给公平调度器队列吗？

我们可以根据其类型（MR，SPARK）将hadoop应用程序分配给公平调度器队列吗？

我们可以清除 Ubuntu 中的内存缓存吗

我可以在CDH中安装多个Spark版本吗？

我可以在CDH中安装多个Spark版本吗？

我们如何在Spark结构化流中管理偏移量？（_spark_metadata问题）

Spark Streaming中的顺序处理

Spark Streaming中的并发操作

在Spark Streaming中缓存DStream

我们可以将“ cd ..”路径存储在bash文件中的变量中吗？

在sbt中，我们如何指定Spark依赖的hadoop版本？

如何在Scala Spark中持久保存我们从dataFrame动态创建的列表

为什么我们在spark中需要两个不同的conf文件？

在 Spark Window 函数中，为什么我们需要在最后使用 drop()

我们可以使用 apache spark 为斐波那契数列实现并行代码吗

我们可以在文件中存储多个对象吗？

我们可以在文件中存储多个对象吗？

如何将Spark Streaming数据转换为Spark DataFrame