Spark:sparkSession 从 http 响应的结果中读取

帕特帕特

关于 Spark 以及如何从 http 响应的结果中读取的小问题。

众所周知,Spark 可以将某个数据库或 CSV 等作为数据源...

sparkSession.read().format("csv").load("path/to/people.csv");

sparkSession.read().format("org.apache.spark.sql.cassandra").options(properties).load()

请问如何直接从http调用的结果中读取?

无需将数据转储回另一个中间 csv/中间数据库表中。

例如,csv 和数据库将包含数百万行,一旦读取,该作业需要执行某种映射缩减操作。

现在,完全相同的数据来自 http 调用的结果。对于网络层来说已经足够小了,但是payload里面包含的信息很大,所以我想应用同样的map reduce。

请如何从http调用的响应中读取?

谢谢

基兰·泰勒

在 Spark 中读取数据有两种选择:

  • 直接读取驱动程序并分发给执行程序(不可扩展,因为所有内容都通过驱动程序)
  • 直接从执行程序读取

像 csv、parquet 等内置数据源都实现了从 executors 的读取,因此作业可以随数据扩展。它们定义了数据的每个分区应该如何读取——例如,如果我们有 10 个 executor,你如何将数据源分成 10 个部分,以便每个 executor 可以直接读取一个部分。

如果您想从 HTTP 请求加载,您必须通读驱动程序并分发,如果您知道数据将小于 ~10mb,这可能没问题。否则,您需要实现自定义数据源以允许执行程序读取每个分区,可以在此处阅读更多信息:https : //aamargajbhiye.medium.com/speed-up-apache-spark-job-execution-using-a -自定义数据源-fd791a0fa4b0

最后会说第二个选项几乎肯定是一个反模式。提供中间暂存环境(例如 S3/GCS),调用服务器将数据加载到中间存储,然后在完成时读取到 Spark,您可能会好得多。在场景 2 中,您可能最终会在服务器上施加过多负载,以及其他问题。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从http.Request的响应中读取文件内容

来自分类Dev

如何从Golang的http响应中读取压缩的数据

来自分类Java

Java HTTP请求读取响应主体

来自分类Dev

限制对HTTP GET请求的响应中读取的数据量

来自分类Dev

在Golang中将管道读取写入HTTP响应

来自分类Linux

在C中读取HTML文件并将其加载到HTTP响应中

来自分类Dev

AngularJS-无法从$ http读取响应头

来自分类Dev

主类中的Spark提交主URL和SparkSession主URL有什么区别?

来自分类Dev

在Spark 2.0中使用SparkSession时的parallelize()方法

来自分类Dev

通过Java + Spark + SparkSession在Cassandra表中插入/更新行的最佳方法是什么

来自分类Dev

python脚本中的spark-submit和SparkSession之间的区别?

来自分类Dev

在Spark 2+中通过SparkSession向Kryo注册类

来自分类Dev

如何从角度http的响应中读取状态?

来自分类Dev

根据响应递归组合HTTP结果

来自分类Dev

在PySpark中,SparkSession和Databricks的用于导入CSV文件的Spark-CSV模块有什么区别?

来自分类Dev

从Elm中的HTTP响应中读取自定义标头

来自分类Dev

从JSON HTTP响应读取对象

来自分类Dev

jQuery-从Promise / Deerred Ajax响应中读取HTTP响应

来自分类Dev

从Android中的HTTP请求读取结果

来自分类Dev

当响应类型为arraybuffer时,如何从HTTP get方法读取Angular JS中的RAW JSON?

来自分类Dev

定期从HTTP PostAsync响应内容返回的Task <Stream>中读取

来自分类Dev

尝试从数据库中获取并在 http 响应中返回结果时出错

来自分类Dev

路由到从数据库中获取并在 http 响应中返回结果的控制器

来自分类Dev

Django如何读取http请求并发送http响应

来自分类Dev

线程“main”中的异常 java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

来自分类Dev

如何从使用 python Flask 构建的服务器的 http 200 响应中读取内容?

来自分类Dev

在 Http 响应消息中查找 POST 的结果

来自分类Dev

为什么 SparkSession 在 Spark2.3 中不可用

来自分类Dev

Flutter 中的 HTTP 响应

Related 相关文章

  1. 1

    如何从http.Request的响应中读取文件内容

  2. 2

    如何从Golang的http响应中读取压缩的数据

  3. 3

    Java HTTP请求读取响应主体

  4. 4

    限制对HTTP GET请求的响应中读取的数据量

  5. 5

    在Golang中将管道读取写入HTTP响应

  6. 6

    在C中读取HTML文件并将其加载到HTTP响应中

  7. 7

    AngularJS-无法从$ http读取响应头

  8. 8

    主类中的Spark提交主URL和SparkSession主URL有什么区别?

  9. 9

    在Spark 2.0中使用SparkSession时的parallelize()方法

  10. 10

    通过Java + Spark + SparkSession在Cassandra表中插入/更新行的最佳方法是什么

  11. 11

    python脚本中的spark-submit和SparkSession之间的区别?

  12. 12

    在Spark 2+中通过SparkSession向Kryo注册类

  13. 13

    如何从角度http的响应中读取状态?

  14. 14

    根据响应递归组合HTTP结果

  15. 15

    在PySpark中,SparkSession和Databricks的用于导入CSV文件的Spark-CSV模块有什么区别?

  16. 16

    从Elm中的HTTP响应中读取自定义标头

  17. 17

    从JSON HTTP响应读取对象

  18. 18

    jQuery-从Promise / Deerred Ajax响应中读取HTTP响应

  19. 19

    从Android中的HTTP请求读取结果

  20. 20

    当响应类型为arraybuffer时,如何从HTTP get方法读取Angular JS中的RAW JSON?

  21. 21

    定期从HTTP PostAsync响应内容返回的Task <Stream>中读取

  22. 22

    尝试从数据库中获取并在 http 响应中返回结果时出错

  23. 23

    路由到从数据库中获取并在 http 响应中返回结果的控制器

  24. 24

    Django如何读取http请求并发送http响应

  25. 25

    线程“main”中的异常 java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

  26. 26

    如何从使用 python Flask 构建的服务器的 http 200 响应中读取内容?

  27. 27

    在 Http 响应消息中查找 POST 的结果

  28. 28

    为什么 SparkSession 在 Spark2.3 中不可用

  29. 29

    Flutter 中的 HTTP 响应

热门标签

归档