如何运行 Spark 或 Mapreduce 作业在 5 分钟间隔内由 spark streaming 生成的 hdfs 上的每小时聚合数据

How to run Spark Or Mapreduce job on hourly aggregated data on hdfs produced by spark streaming in 5mins interval

我有一个场景，我正在使用 spark stream 从 Kinesis 服务收集数据 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html

现在在流式传输中，我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它.. 现在我想要一种方法可以收集所有最后一小时的数据或每小时的数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。

查询： 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在从 spark 发射之前我们需要一些分区吗？ 2.Can 我们为此使用亚马逊数据管道。但是假设如果我们在 /user/hadoop/ folder 上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗？

如果您使用的是 Mesos 集群管理器，您可以查看 chronos 以进行作业调度http://nerds.airbnb.com/introducing-chronos/

否则对于 spark 独立集群，您可以简单地通过 chrontab 或从外部应用程序进行调度。

我不确定你的用例。但是数据管道有一个与运动学一起工作的样本。它可能会给你一个提示。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

如何运行 Spark 或 Mapreduce 作业在 5 分钟间隔内由 spark streaming 生成的 hdfs 上的每小时聚合数据

How to run Spark Or Mapreduce job on hourly aggregated data on hdfs produced by spark streaming in 5mins interval

hive

amazon-data-pipeline

apache-spark

spark-streaming

如何 运行 Spark 或 Mapreduce 作业在 5 分钟间隔内由 spark streaming 生成的 hdfs 上的每小时聚合数据

How to run Spark Or Mapreduce job on hourly aggregated data on hdfs produced by spark streaming in 5mins interval

hive

amazon-data-pipeline

apache-spark

spark-streaming

如何运行 Spark 或 Mapreduce 作业在 5 分钟间隔内由 spark streaming 生成的 hdfs 上的每小时聚合数据