如何使用 Spark 运行 云数据流管道 运行ner?
How to run Cloud Dataflow pipelines using Spark runner?
我读到 Google 基于 Apache Beam SDK 的云数据流管道可以 运行 使用 Spark 或 Flink。
我目前有一些数据流管道 运行 在 GCP 上使用默认的云数据流 运行ner,我想 运行 使用 Spark 运行ner 但我不知道不知道怎么做。
是否有关于如何执行此操作的文档或指南?任何指针都会有所帮助。
谢谢。
我假设您使用的是 Java,但等效过程适用于 Python。
您需要迁移管道以使用 Apache Beam SDK,将 Google Dataflow SDK 依赖项替换为:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>2.4.0</version>
</dependency>
然后为您要使用的运行器添加依赖项:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-spark</artifactId>
<version>2.4.0</version>
</dependency>
并添加 --runner=spark
以指定在提交管道时应使用此运行器。
有关跑步者的完整列表和他们的能力比较,请参阅 https://beam.apache.org/documentation/runners/capability-matrix/。
多亏了散布在网络上的多个教程和文档,我终于能够对如何将 spark runner 与任何基于 Beam SDK 的管道一起使用有了一个连贯的想法。
我在这里记录了整个过程以供将来参考:http://opreview.blogspot.com/2018/07/running-apache-beam-pipeline-using.html。
我读到 Google 基于 Apache Beam SDK 的云数据流管道可以 运行 使用 Spark 或 Flink。
我目前有一些数据流管道 运行 在 GCP 上使用默认的云数据流 运行ner,我想 运行 使用 Spark 运行ner 但我不知道不知道怎么做。
是否有关于如何执行此操作的文档或指南?任何指针都会有所帮助。
谢谢。
我假设您使用的是 Java,但等效过程适用于 Python。
您需要迁移管道以使用 Apache Beam SDK,将 Google Dataflow SDK 依赖项替换为:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>2.4.0</version>
</dependency>
然后为您要使用的运行器添加依赖项:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-spark</artifactId>
<version>2.4.0</version>
</dependency>
并添加 --runner=spark
以指定在提交管道时应使用此运行器。
有关跑步者的完整列表和他们的能力比较,请参阅 https://beam.apache.org/documentation/runners/capability-matrix/。
多亏了散布在网络上的多个教程和文档,我终于能够对如何将 spark runner 与任何基于 Beam SDK 的管道一起使用有了一个连贯的想法。
我在这里记录了整个过程以供将来参考:http://opreview.blogspot.com/2018/07/running-apache-beam-pipeline-using.html。