可以通过 Airflow 安排 Spark 作业吗
Can Spark jobs be scheduled through Airflow
我是 spark 的新手,需要澄清我的一些疑问。
- 我可以通过 Airflow 安排 Spark 作业吗
- 我的 Airflow (Spark) 作业处理 S3 存储桶中存在的原始 csv 文件,然后将其转换为镶木地板格式,将其存储到 S3 存储桶中,最后在完全处理后将其存储到 Presto Hive 中。最终用户连接到 Presto 并查询数据以创建可视化。
这些处理后的数据是否可以仅存储在 Hive 或 Presto 中,以便用户可以连接到 Presto 或 Hive 并相应地对数据库执行查询。
好吧,你总是可以spark_submit_operator
安排并提交您的 Spark 作业,或者您可以使用 bash operator
您可以在其中使用 spark-submit bash 命令来安排和提交 spark 作业。
关于你的第二个问题,在 spark 创建 parquet 文件后,你可以使用 spark(相同的 spark 实例)将它写入 hive 或 presto。
我是 spark 的新手,需要澄清我的一些疑问。
- 我可以通过 Airflow 安排 Spark 作业吗
- 我的 Airflow (Spark) 作业处理 S3 存储桶中存在的原始 csv 文件,然后将其转换为镶木地板格式,将其存储到 S3 存储桶中,最后在完全处理后将其存储到 Presto Hive 中。最终用户连接到 Presto 并查询数据以创建可视化。
这些处理后的数据是否可以仅存储在 Hive 或 Presto 中,以便用户可以连接到 Presto 或 Hive 并相应地对数据库执行查询。
好吧,你总是可以spark_submit_operator 安排并提交您的 Spark 作业,或者您可以使用 bash operator 您可以在其中使用 spark-submit bash 命令来安排和提交 spark 作业。
关于你的第二个问题,在 spark 创建 parquet 文件后,你可以使用 spark(相同的 spark 实例)将它写入 hive 或 presto。