Spark：sparkSession 从 http 响应的结果中读取

PatPatPat 发表于 Dev

帕特帕特

关于 Spark 以及如何从 http 响应的结果中读取的小问题。

众所周知，Spark 可以将某个数据库或 CSV 等作为数据源...

sparkSession.read().format("csv").load("path/to/people.csv");

sparkSession.read().format("org.apache.spark.sql.cassandra").options(properties).load()

请问如何直接从http调用的结果中读取？

无需将数据转储回另一个中间 csv/中间数据库表中。

例如，csv 和数据库将包含数百万行，一旦读取，该作业需要执行某种映射缩减操作。

现在，完全相同的数据来自 http 调用的结果。对于网络层来说已经足够小了，但是payload里面包含的信息很大，所以我想应用同样的map reduce。

请如何从http调用的响应中读取？

谢谢

基兰·泰勒

在 Spark 中读取数据有两种选择：

直接读取驱动程序并分发给执行程序（不可扩展，因为所有内容都通过驱动程序）
直接从执行程序读取

像 csv、parquet 等内置数据源都实现了从 executors 的读取，因此作业可以随数据扩展。它们定义了数据的每个分区应该如何读取——例如，如果我们有 10 个 executor，你如何将数据源分成 10 个部分，以便每个 executor 可以直接读取一个部分。

如果您想从 HTTP 请求加载，您必须通读驱动程序并分发，如果您知道数据将小于 ~10mb，这可能没问题。否则，您需要实现自定义数据源以允许执行程序读取每个分区，可以在此处阅读更多信息：https : //aamargajbhiye.medium.com/speed-up-apache-spark-job-execution-using-a -自定义数据源-fd791a0fa4b0

最后会说第二个选项几乎肯定是一个反模式。提供中间暂存环境（例如 S3/GCS），调用服务器将数据加载到中间存储，然后在完成时读取到 Spark，您可能会好得多。在场景 2 中，您可能最终会在服务器上施加过多负载，以及其他问题。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-09-15

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

Spark：sparkSession 从 http 响应的结果中读取

Spark：sparkSession 从 http 响应的结果中读取

如何从http.Request的响应中读取文件内容

如何从Golang的http响应中读取压缩的数据

Java HTTP请求读取响应主体

限制对HTTP GET请求的响应中读取的数据量

在Golang中将管道读取写入HTTP响应

在C中读取HTML文件并将其加载到HTTP响应中

AngularJS-无法从$ http读取响应头

主类中的Spark提交主URL和SparkSession主URL有什么区别？

在Spark 2.0中使用SparkSession时的parallelize（）方法

通过Java + Spark + SparkSession在Cassandra表中插入/更新行的最佳方法是什么

python脚本中的spark-submit和SparkSession之间的区别？

在Spark 2+中通过SparkSession向Kryo注册类

如何从角度http的响应中读取状态？

根据响应递归组合HTTP结果

在PySpark中，SparkSession和Databricks的用于导入CSV文件的Spark-CSV模块有什么区别？

从Elm中的HTTP响应中读取自定义标头

从JSON HTTP响应读取对象

jQuery-从Promise / Deerred Ajax响应中读取HTTP响应

从Android中的HTTP请求读取结果

当响应类型为arraybuffer时，如何从HTTP get方法读取Angular JS中的RAW JSON？

定期从HTTP PostAsync响应内容返回的Task <Stream>中读取

尝试从数据库中获取并在 http 响应中返回结果时出错

路由到从数据库中获取并在 http 响应中返回结果的控制器

Django如何读取http请求并发送http响应

线程“main”中的异常 java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

如何从使用 python Flask 构建的服务器的 http 200 响应中读取内容？

在 Http 响应消息中查找 POST 的结果

为什么 SparkSession 在 Spark2.3 中不可用

Flutter 中的 HTTP 响应