ETL 管道的数据整合

Data Consolidation for ETL pipeline

我目前正计划将一些数据源移动到一个地方进行后验分析。

目前我有任何数据源(数据库),例如:

Cassandra 将用于大数据管道中的分析。将任何源迁移到 Cassandra 集群的最佳方法是什么?

我强烈建议在此用例中使用 NiFi。我可以马上概述的一些好处。

  • 内置 "Processors" 可用于从所有列出的数据源读取数据并写入 Cassandra。
  • 非常高的吞吐量和低延迟。
  • 无需编写大量代码即可快速开发数据采集管道。
  • 如果需要,能够在您的项目后期非常轻松地完成 "Change Data Capture"。
  • 提供高度并发的模型,开发人员无需担心典型的并发复杂性。
  • 本质上是异步的,即使在处理和流量波动时也能实现非常高的吞吐量和自然缓冲
  • resource-constrained 连接使 back-pressure 和压力释放等关键功能变得非常自然和直观。
  • 数据进入和退出系统的点以及数据流经的方式都很好理解并易于跟踪
  • 最重要的是,开源。

您可以参考Apache NiFi homepage了解更多信息。

希望对您有所帮助!