可以通过 Airflow 安排 Spark 作业吗

Can Spark jobs be scheduled through Airflow

我是 spark 的新手,需要澄清我的一些疑问。

  1. 我可以通过 Airflow 安排 Spark 作业吗
  2. 我的 Airflow (Spark) 作业处理 S3 存储桶中存在的原始 csv 文件,然后将其转换为镶木地板格式,将其存储到 S3 存储桶中,最后在完全处理后将其存储到 Presto Hive 中。最终用户连接到 Presto 并查询数据以创建可视化。

这些处理后的数据是否可以仅存储在 Hive 或 Presto 中,以便用户可以连接到 Presto 或 Hive 并相应地对数据库执行查询。

好吧,你总是可以spark_submit_operator 安排并提交您的 Spark 作业,或者您可以使用 bash operator 您可以在其中使用 spark-submit bash 命令来安排和提交 spark 作业。

关于你的第二个问题,在 spark 创建 parquet 文件后,你可以使用 spark(相同的 spark 实例)将它写入 hive 或 presto。