将数据从 HDFS 写入 Kafka
Writing data from HDFS to Kafka
当数据最终写入 HDFS 时,Kafka 通常用于摄取管道。有没有使用Kafka将数据从HDFS传输到外部系统的设计?我知道Kafka更适合作为消息系统,但是我们可以使用Kafka的发布-订阅来传输数据吗?在此用例中,生产者将数据从 HDFS(一次 1 行)写入主题,消费者将异步读取。
实施时可能会遇到挑战,例如数据大小、安全性等。
我知道其他方式,比如sqoop、distcp等
您应该能够使用 Mapreduce 或您选择的任何框架来实现它。我猜 Apache Nifi 之类的东西可以开箱即用,但还没有尝试过那个方向。
当数据最终写入 HDFS 时,Kafka 通常用于摄取管道。有没有使用Kafka将数据从HDFS传输到外部系统的设计?我知道Kafka更适合作为消息系统,但是我们可以使用Kafka的发布-订阅来传输数据吗?在此用例中,生产者将数据从 HDFS(一次 1 行)写入主题,消费者将异步读取。
实施时可能会遇到挑战,例如数据大小、安全性等。
我知道其他方式,比如sqoop、distcp等
您应该能够使用 Mapreduce 或您选择的任何框架来实现它。我猜 Apache Nifi 之类的东西可以开箱即用,但还没有尝试过那个方向。