Google Dataproc 集群内加密
Google Dataproc in-cluster encryption
我们正在努力实现 GDPR 合规。核心问题之一是数据加密。我知道在 Google Cloud Platform 中的节点之间移动数据时存在传输中数据加密。集群内的数据加密如何,例如在洗牌期间,在使用 Google Dataproc 时?另外,当 tmp
dir 被 Spark 内部使用时,数据是否被加密(默认情况下有纯文本文件)?
Dataproc 基于 GCE VM 构建,因此适用相同的安全性。
GCE VM(PD 或本地 SSD)磁盘上的所有数据均已加密:https://cloud.google.com/compute/docs/disks/。所以 Spark 的 tmp
目录确实是加密的。
离开 Google 数据中心的网络通信(例如跨区域流量)已加密。此外,Google API 访问已加密。但是,数据中心内的节点到节点通信(可能是所有集群内 Dataproc 流量)未加密。您可以在这里阅读更多内容:https://cloud.google.com/security/encryption-in-transit/.
也就是说,集群内通信本质上是气隙的。节点到节点通信发生在您孤立的内部 IP 上 VPC network. Dataproc has guidance 关于如何配置防火墙规则。
您还可以使用 Dataproc private IP clusters 来避免虚拟机上有外部 IP 地址。
这是关于 Google Cloud GDPR 合规性的文档:https://www.google.com/cloud/security/gdpr/。
我们正在努力实现 GDPR 合规。核心问题之一是数据加密。我知道在 Google Cloud Platform 中的节点之间移动数据时存在传输中数据加密。集群内的数据加密如何,例如在洗牌期间,在使用 Google Dataproc 时?另外,当 tmp
dir 被 Spark 内部使用时,数据是否被加密(默认情况下有纯文本文件)?
Dataproc 基于 GCE VM 构建,因此适用相同的安全性。
GCE VM(PD 或本地 SSD)磁盘上的所有数据均已加密:https://cloud.google.com/compute/docs/disks/。所以 Spark 的 tmp
目录确实是加密的。
离开 Google 数据中心的网络通信(例如跨区域流量)已加密。此外,Google API 访问已加密。但是,数据中心内的节点到节点通信(可能是所有集群内 Dataproc 流量)未加密。您可以在这里阅读更多内容:https://cloud.google.com/security/encryption-in-transit/.
也就是说,集群内通信本质上是气隙的。节点到节点通信发生在您孤立的内部 IP 上 VPC network. Dataproc has guidance 关于如何配置防火墙规则。
您还可以使用 Dataproc private IP clusters 来避免虚拟机上有外部 IP 地址。
这是关于 Google Cloud GDPR 合规性的文档:https://www.google.com/cloud/security/gdpr/。