Disadvantages/Problems 使用 Apache Beam 而不是直接使用 Spark?
Disadvantages/Problems with using Apache Beam instead of using Spark directly?
我要开始一个新的项目,不知道Spark好还是Flink好。目前,该项目需要微批处理,但以后可能还需要流事件处理。
假设 Spark 最好,使用 Beam 并选择 Spark/Flink 作为 runner/engine 有什么缺点吗?
Beam 会增加任何开销或缺少 Spark/Flink 中可用的某些 API/functions 吗?
回答你问题的一部分:
首先,Beam定义了API程序来进行数据处理。要采用它,您必须首先了解它的编程模型并确保它的模型适合您的需要。
假设您已经相当了解 Beam 可以为您提供什么帮助,并且您计划 select Spark 作为执行运行器,您可以检查运行器能力矩阵[1] 以获得 Beam API 支持火花.
关于 运行 Beam over Spark 的开销。您可能需要在 user@beam.apache.org 或 dev@beam.apache.org 中询问。 Runner 开发人员可以得到更好的答案。
[1] https://beam.apache.org/documentation/runners/capability-matrix/
我要开始一个新的项目,不知道Spark好还是Flink好。目前,该项目需要微批处理,但以后可能还需要流事件处理。
假设 Spark 最好,使用 Beam 并选择 Spark/Flink 作为 runner/engine 有什么缺点吗?
Beam 会增加任何开销或缺少 Spark/Flink 中可用的某些 API/functions 吗?
回答你问题的一部分:
首先,Beam定义了API程序来进行数据处理。要采用它,您必须首先了解它的编程模型并确保它的模型适合您的需要。
假设您已经相当了解 Beam 可以为您提供什么帮助,并且您计划 select Spark 作为执行运行器,您可以检查运行器能力矩阵[1] 以获得 Beam API 支持火花.
关于 运行 Beam over Spark 的开销。您可能需要在 user@beam.apache.org 或 dev@beam.apache.org 中询问。 Runner 开发人员可以得到更好的答案。
[1] https://beam.apache.org/documentation/runners/capability-matrix/