Disadvantages/Problems 使用 Apache Beam 而不是直接使用 Spark？

Disadvantages/Problems with using Apache Beam instead of using Spark directly?

我要开始一个新的项目，不知道Spark好还是Flink好。目前，该项目需要微批处理，但以后可能还需要流事件处理。

假设 Spark 最好，使用 Beam 并选择 Spark/Flink 作为 runner/engine 有什么缺点吗？

Beam 会增加任何开销或缺少 Spark/Flink 中可用的某些 API/functions 吗？

回答你问题的一部分：

首先，Beam定义了API程序来进行数据处理。要采用它，您必须首先了解它的编程模型并确保它的模型适合您的需要。

假设您已经相当了解 Beam 可以为您提供什么帮助，并且您计划 select Spark 作为执行运行器，您可以检查运行器能力矩阵[1] 以获得 Beam API 支持火花.

关于运行 Beam over Spark 的开销。您可能需要在 user@beam.apache.org 或 dev@beam.apache.org 中询问。 Runner 开发人员可以得到更好的答案。