TensorFlow Extended (TFX):阐明 Beam、Airflow 和 Kubeflow 的使用
TensorFlow Extended (TFX): Clarify Beam, Airflow and Kubeflow usage
我希望有人能阐明 TensorFlow 及其依赖项(Beam、AirFlow、Flink 等)之间的关系
我引用的是主要的 TFX 页面:
https://www.tensorflow.org/tfx/guide#creating_a_tfx_pipeline_with_airflow
等
在示例中,我看到了三个变体:
https://github.com/tensorflow/tfx/tree/master/tfx/examples/chicago_taxi_pipeline
taxi_pipeline_flink.py
、taxi_pipeline_kubeflow.py
、taxi_pipeline_simple.py
BEAM 示例?
没有 "BEAM" 示例,也很少描述其用法。
假设 taxi_pipeline_simple.py
即使未安装气流也会 运行 是否正确?我认为不是,因为它使用 "AirflowDAGRunner"。如果没有,那么您可以 运行 TFX 只有 BEAM 及其 运行ner 吗?如果是这样,为什么没有这样的例子?
Flink 示例
在taxi_pipeline_flink.py
中使用了AirflowDAGRunner。我假设使用 AirFlow 作为编排器,而编排器又使用 Flink 作为其执行器。正确吗?
气流示例
该页面指出 BEAM 是必需的依赖项,但 airflow 没有 beam 作为其执行程序之一。它只有 SequentialExecutor、LocalExecutor、CeleryExecutor、DaskExecutor 和 KubernetesExecutor。因此,BEAM 只有在不使用 Airflow 时才需要吗?使用气流时,如果需要光束有什么用?
感谢您的任何见解。
A) 为了 运行 TFX 管道,您需要编排器。例如 Apache Airflow、Kubeflow Pipelines 和 Apache Beam。
B) Apache Beam 还(可能主要)用于某些 TFX 组件中的分布式数据处理。因此,Apache Beam 对于您选择的任何编排器都是必需的(即使您不使用 Apache Beam 作为编排器!)
回答您的观点:
1) BEAM 示例 - 现在 https://github.com/tensorflow/tfx/blob/master/tfx/examples/chicago_taxi_pipeline/taxi_pipeline_beam.py 上有一个 Beam 示例。正如您正确预期的那样,那里没有 AirflowDAGRunner,因为此示例未使用 Airflow 作为编排器。
2) Airflow 示例 - 由于上述原因,BEAM 是必需的依赖项:TFX 始终使用 BEAM 在某些组件中进行分布式数据处理。因此,即使使用 Airflow(或任何其他)作为编排器,您也需要 BEAM。
3) Flink 示例 - 目前,我无法在任何地方找到这个示例(可能是由于您发布后 link 发生了变化),但 F[= 可能25=] 将用作 运行ner,而 Airflow 是编排器。但是,我在 Airflow 的文档中找不到对 Flink 的提及。
希望对你有所帮助。
我希望有人能阐明 TensorFlow 及其依赖项(Beam、AirFlow、Flink 等)之间的关系
我引用的是主要的 TFX 页面: https://www.tensorflow.org/tfx/guide#creating_a_tfx_pipeline_with_airflow 等
在示例中,我看到了三个变体:
https://github.com/tensorflow/tfx/tree/master/tfx/examples/chicago_taxi_pipeline
taxi_pipeline_flink.py
、taxi_pipeline_kubeflow.py
、taxi_pipeline_simple.py
BEAM 示例?
没有 "BEAM" 示例,也很少描述其用法。
假设 taxi_pipeline_simple.py
即使未安装气流也会 运行 是否正确?我认为不是,因为它使用 "AirflowDAGRunner"。如果没有,那么您可以 运行 TFX 只有 BEAM 及其 运行ner 吗?如果是这样,为什么没有这样的例子?
Flink 示例
在taxi_pipeline_flink.py
中使用了AirflowDAGRunner。我假设使用 AirFlow 作为编排器,而编排器又使用 Flink 作为其执行器。正确吗?
气流示例
该页面指出 BEAM 是必需的依赖项,但 airflow 没有 beam 作为其执行程序之一。它只有 SequentialExecutor、LocalExecutor、CeleryExecutor、DaskExecutor 和 KubernetesExecutor。因此,BEAM 只有在不使用 Airflow 时才需要吗?使用气流时,如果需要光束有什么用?
感谢您的任何见解。
A) 为了 运行 TFX 管道,您需要编排器。例如 Apache Airflow、Kubeflow Pipelines 和 Apache Beam。
B) Apache Beam 还(可能主要)用于某些 TFX 组件中的分布式数据处理。因此,Apache Beam 对于您选择的任何编排器都是必需的(即使您不使用 Apache Beam 作为编排器!)
回答您的观点:
1) BEAM 示例 - 现在 https://github.com/tensorflow/tfx/blob/master/tfx/examples/chicago_taxi_pipeline/taxi_pipeline_beam.py 上有一个 Beam 示例。正如您正确预期的那样,那里没有 AirflowDAGRunner,因为此示例未使用 Airflow 作为编排器。
2) Airflow 示例 - 由于上述原因,BEAM 是必需的依赖项:TFX 始终使用 BEAM 在某些组件中进行分布式数据处理。因此,即使使用 Airflow(或任何其他)作为编排器,您也需要 BEAM。
3) Flink 示例 - 目前,我无法在任何地方找到这个示例(可能是由于您发布后 link 发生了变化),但 F[= 可能25=] 将用作 运行ner,而 Airflow 是编排器。但是,我在 Airflow 的文档中找不到对 Flink 的提及。
希望对你有所帮助。