Apache Apex 是依赖 HDFS 还是有自己的文件系统?

Does Apache Apex rely on HDFS or does it have its own file system?

我了解 Apache Apex 在 Hadoop 和 YARN 上运行。它是否利用 HDFS 进行持久性和复制以防止数据丢失?还是它有自己的?

Apache Apex 没有自己的文件系统。默认情况下,使用 Apex 编写的流应用程序将使用 HDFS 进行检查点、持久化和保存应用程序特定数据。

Apache Apex 使用操作符状态的检查点来实现容错。 Apex 使用 HDFS 写入这些检查点以进行恢复。但是,用于检查点的存储是可配置的。 Apex 也有 checkpoint to Apache Geode 的实现。 Apex 还使用 HDFS 上传工件,例如包含应用程序 jar 的应用程序包、启动应用程序所需的依赖项和配置等。