Spark Streaming 预写日志是否将所有接收到的数据保存到 HDFS？

Does spark streaming write ahead log saves all received data to HDFS?

如果在 Spark Streaming 中启用了预写日志，是否所有接收到的数据都会写入 HDFS 路径？或者它只写元数据。清理工作如何进行，HDFS 路径是否每天都变得越来越大，我是否需要编写清理作业以从预写日志文件夹中删除数据？预写日志文件夹实际上有什么？

谢谢斯里

启用 WAL 后，数据将被序列化并保存到 HDFS 中。因此，您所有的假设都是正确的，HDFS 文件变大了。但是，它会通过单独的过程进行清理。我还没有得到解释这一点的实际参考资料，但您可以在源代码中看到这一点。此外，它引入了更长的处理时间，因为这些是过程运行以及您的转换和操作