为什么 Cloud Dataflow 运行 其工作人员与我的数据所在的区域不同?
Why does Cloud Dataflow run its workers in a different region from where my data lies?
在评估 GCP 作为我们业务的潜在分析平台时,我设置了一个位于欧盟的云存储桶。我已将我的 BigQuery 数据集配置为也位于欧盟。但是当我 运行 Cloud Dataflow 服务中的一个 ETL 作业将数据从前者移动到后者时,我在日志中看到以下消息:
Worker configuration: n1-standard-1 in us-central1-f
除了有关性能和延迟的技术问题外,我还担心数据需要保留在欧盟境内往返美国数据中心进行处理的法律方面。
我无法在 DataflowPipelineRunner
选项中指定工作人员位置,而且我无法在 Data Processing and Security Terms 中判断我是否可以假设我的数据不会移动。
是否期望 Cloud Dataflow 可以在它认为方便的任何地方处理我的数据,而不管数据存储在哪里或目的地在哪里?
根据 documentation:
The Dataflow service deploys Compute Engine resources in the zone us-central1-f
by default. You can override this setting by specifying the --zone
option when you create your pipeline.
此选项在 DataflowPipelineWorkerPoolOptions 中声明。
在评估 GCP 作为我们业务的潜在分析平台时,我设置了一个位于欧盟的云存储桶。我已将我的 BigQuery 数据集配置为也位于欧盟。但是当我 运行 Cloud Dataflow 服务中的一个 ETL 作业将数据从前者移动到后者时,我在日志中看到以下消息:
Worker configuration: n1-standard-1 in us-central1-f
除了有关性能和延迟的技术问题外,我还担心数据需要保留在欧盟境内往返美国数据中心进行处理的法律方面。
我无法在 DataflowPipelineRunner
选项中指定工作人员位置,而且我无法在 Data Processing and Security Terms 中判断我是否可以假设我的数据不会移动。
是否期望 Cloud Dataflow 可以在它认为方便的任何地方处理我的数据,而不管数据存储在哪里或目的地在哪里?
根据 documentation:
The Dataflow service deploys Compute Engine resources in the zone
us-central1-f
by default. You can override this setting by specifying the--zone
option when you create your pipeline.
此选项在 DataflowPipelineWorkerPoolOptions 中声明。