Hive 批处理作业的日志记录和监控
Logging & Monitoring for Hive Batch Jobs
这是我在这个论坛上的第一个问题。我正在将配置单元批处理作业日志写入配置单元日志 table,一旦每个步骤完成。我正在使用 INSERT INTO TABLE
将日志写入配置单元 table。
在配置单元中,为每个批处理作业 ID 创建了多个记录,因此我正在创建一个视图来组合在监视工具中使用之前收集的日志记录数据。
您能否提出更好的解决方案来实现这一目标?
备注:
- 我的批处理作业有多个步骤,我喜欢从每个步骤收集日志
- 我不想使用更新
- 我无法上传图片。
Batch Job -> Logs -> Hive -> Monitoring
这是我可以建议的参考架构之一。您仍然可以使用 Hive 进行日志记录,但使用 SERDEPROPERTIES
与 HBase
.
集成
好处:
- 数据将存储在 HBase 中,这将允许决定数据覆盖的 KEY(例如:批处理作业 ID)
- HBase 将维护版本
- 您可以像通常访问 Hive 表一样查询 Hive
- Real-time 使用 HBase 数据的仪表板
High-Level 图:
这是我在这个论坛上的第一个问题。我正在将配置单元批处理作业日志写入配置单元日志 table,一旦每个步骤完成。我正在使用 INSERT INTO TABLE
将日志写入配置单元 table。
在配置单元中,为每个批处理作业 ID 创建了多个记录,因此我正在创建一个视图来组合在监视工具中使用之前收集的日志记录数据。
您能否提出更好的解决方案来实现这一目标?
备注:
- 我的批处理作业有多个步骤,我喜欢从每个步骤收集日志
- 我不想使用更新
- 我无法上传图片。
Batch Job -> Logs -> Hive -> Monitoring
这是我可以建议的参考架构之一。您仍然可以使用 Hive 进行日志记录,但使用 SERDEPROPERTIES
与 HBase
.
好处:
- 数据将存储在 HBase 中,这将允许决定数据覆盖的 KEY(例如:批处理作业 ID)
- HBase 将维护版本
- 您可以像通常访问 Hive 表一样查询 Hive
- Real-time 使用 HBase 数据的仪表板
High-Level 图: