如果 Spark-streaming 应用程序遇到一个巨大的文件会发生什么?

安吉特·凯特里

让我们考虑以下代码:

val streamingContext = new StreamingContext(sparkConf, Seconds(frequency))
val stream = streamingContext.textFileStream("/abc/def")

比如说,如果一个 1 TB 的文件突然出现在这个目录中,会发生什么?它是如何处理的,或者它是如何失败的?

与此相关的是,如果 Spark 无法跟上传入数据的速度,会发生什么情况?

巴韦什

Spark Streaming 接收数据流,将数据分批,然后由 Spark 引擎处理,分批生成最终的结果流。

这应该不会影响处理它会将数据保留在队列中进行处理,如果处理需要很长时间队列会增加

检查点将负责故障转移机制

注意:在极端情况下,如果它无法处理输入请求,它将失败,这取决于您的集群处理能力。

在此处输入图片说明

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何部署Spark Streaming应用程序?

来自分类Dev

我的Spark Streaming应用程序中的OOM异常

来自分类Dev

Spark Streaming独立应用程序和依赖项

来自分类Dev

我的Spark Streaming应用程序中的OOM异常

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

是Java中的垃圾回收专用于JVM吗,如果一个JVM中的应用程序正在泄漏内存,其他JVM会发生什么情况?

来自分类Dev

如果多个 azure 函数应用程序绑定到同一个存储队列以进行输入,会发生什么情况

来自分类Dev

Spark Streaming、Structured Streaming 和 Kafka Streaming 是一回事吗?

来自分类Dev

如果超过100个用户尝试连接到Firebase Spark Plan,会发生什么情况

来自分类Dev

在Spark Streaming应用程序中联接数据的最佳方法是什么?

来自分类Dev

重新启动Spark作业时,如果馈入kafka的数据遇到意外格式,会发生什么情况

来自分类Dev

如果我通过 spark-submit 将非 spark jar 提交到集群会发生什么?

来自分类Dev

为什么Spark Streaming执行程序在不同的时间启动?

来自分类Dev

如何查看一个 Spark Streaming 应用的逻辑和物理规划?

来自分类Dev

Spark Streaming历史状态

来自分类Dev

Spark Streaming累计字数

来自分类Dev

结合Spark Streaming + MLlib

来自分类Dev

Spark Streaming连续作业

来自分类Dev

Spark Streaming Kafka流

来自分类Dev

Spark Streaming StreamingContext错误

来自分类Dev

Spark Streaming textFileStream COPYING

来自分类Dev

使用Spark Streaming处理Kafka消息时遇到的挑战

来自分类Dev

在Kafka上运行Spark-Streaming作业时发生NoSuchMethodError

来自分类Dev

什么是spark.streaming.receiver.maxRate?批次间隔如何运作

来自分类Dev

用两个单词过滤行Spark Streaming

来自分类Dev

在Spark Streaming中更改输出文件名

来自分类Dev

使用Spark Streaming + Kafka的HDFS中的空文件夹

来自分类Dev

apache spark streaming textFileStream-读取gzip文件

Related 相关文章

  1. 1

    如何部署Spark Streaming应用程序?

  2. 2

    我的Spark Streaming应用程序中的OOM异常

  3. 3

    Spark Streaming独立应用程序和依赖项

  4. 4

    我的Spark Streaming应用程序中的OOM异常

  5. 5

    Spark Streaming + Spark SQL

  6. 6

    Spark Streaming + Spark SQL

  7. 7

    是Java中的垃圾回收专用于JVM吗,如果一个JVM中的应用程序正在泄漏内存,其他JVM会发生什么情况?

  8. 8

    如果多个 azure 函数应用程序绑定到同一个存储队列以进行输入,会发生什么情况

  9. 9

    Spark Streaming、Structured Streaming 和 Kafka Streaming 是一回事吗?

  10. 10

    如果超过100个用户尝试连接到Firebase Spark Plan,会发生什么情况

  11. 11

    在Spark Streaming应用程序中联接数据的最佳方法是什么?

  12. 12

    重新启动Spark作业时,如果馈入kafka的数据遇到意外格式,会发生什么情况

  13. 13

    如果我通过 spark-submit 将非 spark jar 提交到集群会发生什么?

  14. 14

    为什么Spark Streaming执行程序在不同的时间启动?

  15. 15

    如何查看一个 Spark Streaming 应用的逻辑和物理规划?

  16. 16

    Spark Streaming历史状态

  17. 17

    Spark Streaming累计字数

  18. 18

    结合Spark Streaming + MLlib

  19. 19

    Spark Streaming连续作业

  20. 20

    Spark Streaming Kafka流

  21. 21

    Spark Streaming StreamingContext错误

  22. 22

    Spark Streaming textFileStream COPYING

  23. 23

    使用Spark Streaming处理Kafka消息时遇到的挑战

  24. 24

    在Kafka上运行Spark-Streaming作业时发生NoSuchMethodError

  25. 25

    什么是spark.streaming.receiver.maxRate?批次间隔如何运作

  26. 26

    用两个单词过滤行Spark Streaming

  27. 27

    在Spark Streaming中更改输出文件名

  28. 28

    使用Spark Streaming + Kafka的HDFS中的空文件夹

  29. 29

    apache spark streaming textFileStream-读取gzip文件

热门标签

归档