Spark SQL - 在 Spark Streams 上部署 SQL 查询的选项
Spark SQL - Options for deploying SQL queries on Spark Streams
我是 Spark 的新手,想 运行 通过 Spark 流进行 Spark SQL 查询。
我目前的理解是,我需要在我的 Spark 作业的代码中定义我的 SQL 查询,正如摘自 Spark SQ 主页的这段代码所示:-
spark.read.json("s3n://...")
.registerTempTable("json")
results = spark.sql(
"""SELECT *
FROM people
JOIN json ...""")
我想做的是在某个地方自己定义我的查询 - 例如。 .sql 文件 - 然后将其部署到 Spark 集群上。
谁能告诉我 Spark 目前是否支持这种架构?例如。一些 API?
您可以使用 python 和 open 来满足您的目的:
with open('filepath/filename.sql') as fr:
query = fr.read()
x = spark.sql(query)
x.show(5)
您可以在使用 sys.argv[]
提交作业时将 filename.sql
作为参数传递
请参阅此 link 以获得更多帮助:Spark SQL question
我是 Spark 的新手,想 运行 通过 Spark 流进行 Spark SQL 查询。
我目前的理解是,我需要在我的 Spark 作业的代码中定义我的 SQL 查询,正如摘自 Spark SQ 主页的这段代码所示:-
spark.read.json("s3n://...")
.registerTempTable("json")
results = spark.sql(
"""SELECT *
FROM people
JOIN json ...""")
我想做的是在某个地方自己定义我的查询 - 例如。 .sql 文件 - 然后将其部署到 Spark 集群上。
谁能告诉我 Spark 目前是否支持这种架构?例如。一些 API?
您可以使用 python 和 open 来满足您的目的:
with open('filepath/filename.sql') as fr:
query = fr.read()
x = spark.sql(query)
x.show(5)
您可以在使用 sys.argv[]
filename.sql
作为参数传递
请参阅此 link 以获得更多帮助:Spark SQL question