Spark.ml 在 Apache Beam 上

Spark.ml on Apache Beam

是否可以在 Beam 管道中使用 Spark.ml 等 Spark 库? 根据我的理解,您将使用“beam 语法”编写管道并让 Beam 使用 spark 作为跑步者在 spark 上执行它。 因此,我看不出如何在 beam.

中使用 spark.ml

但也许我在这里弄错了什么? 有人已经尝试使用它了吗?如果没有,是否存在其他 ML 库可在 Beam 中本地使用(Tensorflow Transform 除外)?

非常感谢, 乔纳森

Apache Beam unifies stream and batch data processing. Its portable, meaning SDKs can be written in any language and it can be executed in any data processing frameworks with enough capabilities(see: runners). ML in not its main concern. So its programming model 没有定义任何统一的 API 来使用 ML。

但 id 并不意味着您不能将它与 ML 库一起使用来预处理 ML 模型所需的数据以进行训练或推理。它非常适合为您做这件事。 Beam 自带一组 build IOs。这可能会帮助您从许多来源获取数据。