如何使用 Spark 运行云数据流管道运行ner？

Question

我读到 Google 基于 Apache Beam SDK 的云数据流管道可以运行使用 Spark 或 Flink。

我目前有一些数据流管道运行在 GCP 上使用默认的云数据流运行ner，我想运行使用 Spark 运行ner 但我不知道不知道怎么做。

是否有关于如何执行此操作的文档或指南？任何指针都会有所帮助。

谢谢。

Answer 1

我假设您使用的是 Java，但等效过程适用于 Python。

您需要迁移管道以使用 Apache Beam SDK，将 Google Dataflow SDK 依赖项替换为：

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.4.0</version>
</dependency>

然后为您要使用的运行器添加依赖项：

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-runners-spark</artifactId>
    <version>2.4.0</version>
</dependency>

并添加 --runner=spark 以指定在提交管道时应使用此运行器。

有关跑步者的完整列表和他们的能力比较，请参阅 https://beam.apache.org/documentation/runners/capability-matrix/。

Answer 2

多亏了散布在网络上的多个教程和文档，我终于能够对如何将 spark runner 与任何基于 Beam SDK 的管道一起使用有了一个连贯的想法。

How to run Cloud Dataflow pipelines using Spark runner?