Spark Streaming 预写日志是否将所有接收到的数据保存到 HDFS?
Does spark streaming write ahead log saves all received data to HDFS?
如果在 Spark Streaming 中启用了预写日志,是否所有接收到的数据都会写入 HDFS 路径?或者它只写元数据。
清理工作如何进行,HDFS 路径是否每天都变得越来越大,我是否需要编写清理作业以从预写日志文件夹中删除数据?
预写日志文件夹实际上有什么?
谢谢
斯里
启用 WAL 后,数据将被序列化并保存到 HDFS 中。因此,您所有的假设都是正确的,HDFS 文件变大了。但是,它会通过单独的过程进行清理。我还没有得到解释这一点的实际参考资料,但您可以在源代码中看到这一点。此外,它引入了更长的处理时间,因为这些是过程 运行 以及您的转换和操作
如果在 Spark Streaming 中启用了预写日志,是否所有接收到的数据都会写入 HDFS 路径?或者它只写元数据。 清理工作如何进行,HDFS 路径是否每天都变得越来越大,我是否需要编写清理作业以从预写日志文件夹中删除数据? 预写日志文件夹实际上有什么?
谢谢 斯里
启用 WAL 后,数据将被序列化并保存到 HDFS 中。因此,您所有的假设都是正确的,HDFS 文件变大了。但是,它会通过单独的过程进行清理。我还没有得到解释这一点的实际参考资料,但您可以在源代码中看到这一点。此外,它引入了更长的处理时间,因为这些是过程 运行 以及您的转换和操作