Spark SQL - 在 Spark Streams 上部署 SQL 查询的选项

千斤顶

我是 Spark 的新手,想通过 Spark 流运行 Spark SQL 查询。

我目前的理解是,我需要在我的 Spark 作业的代码中定义我的 SQL 查询,因为从 Spark SQ 主页提取的这个片段显示:-

spark.read.json("s3n://...")
  .registerTempTable("json")
results = spark.sql(
  """SELECT * 
     FROM people
     JOIN json ...""")

我想要做的是在某处自己定义我的查询 - 例如。.sql 文件 - 然后将其部署在 Spark 集群上。

谁能告诉我 Spark 目前是否支持这种架构?例如。一些API?

什里尼瓦斯·德什穆克

您可以使用 python 和 open 来满足您的目的:

with open('filepath/filename.sql') as fr:
    query = fr.read()
x = spark.sql(query)
x.show(5)

你可以filename.sql在提交你的工作时作为参数传递使用sys.argv[]

请参阅此链接以获取更多帮助:Spark SQL 问题

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章