Terraform:如何使用命名空间在 Google Cloud (GKE) 上创建 Kubernetes 集群?

Terraform: How to create a Kubernetes cluster on Google Cloud (GKE) with namespaces?

我正在寻找一个可以执行以下操作的示例:

  1. 通过 Terraform google_container_cluster
  2. 在 GKE 上创建 Kubernetes 集群
  3. ... 并继续在其中创建名称空间,我想是通过 kubernetes_namespace

我不确定的是如何连接新创建的集群和命名空间定义。例如,在添加 google_container_node_pool 时,我可以执行类似 cluster = "${google_container_cluster.hosting.name}" 的操作,但我没有看到 kubernetes_namespace.

的任何类似内容

理论上,可以在 K8S(或任何其他)提供程序中引用来自 GCP 提供程序的资源,就像在单个提供程序的上下文中引用资源或数据源一样。

provider "google" {
  region = "us-west1"
}

data "google_compute_zones" "available" {}

resource "google_container_cluster" "primary" {
  name = "the-only-marcellus-wallace"
  zone = "${data.google_compute_zones.available.names[0]}"
  initial_node_count = 3

  additional_zones = [
    "${data.google_compute_zones.available.names[1]}"
  ]

  master_auth {
    username = "mr.yoda"
    password = "adoy.rm"
  }

  node_config {
    oauth_scopes = [
      "https://www.googleapis.com/auth/compute",
      "https://www.googleapis.com/auth/devstorage.read_only",
      "https://www.googleapis.com/auth/logging.write",
      "https://www.googleapis.com/auth/monitoring"
    ]
  }
}

provider "kubernetes" {
  host = "https://${google_container_cluster.primary.endpoint}"
  username = "${google_container_cluster.primary.master_auth.0.username}"
  password = "${google_container_cluster.primary.master_auth.0.password}"
  client_certificate = "${base64decode(google_container_cluster.primary.master_auth.0.client_certificate)}"
  client_key = "${base64decode(google_container_cluster.primary.master_auth.0.client_key)}"
  cluster_ca_certificate = "${base64decode(google_container_cluster.primary.master_auth.0.cluster_ca_certificate)}"
}

resource "kubernetes_namespace" "n" {
  metadata {
    name = "blablah"
  }
}

然而在实践中,由于已知的核心错误破坏了跨供应商的依赖性,它可能无法按预期工作,请分别参见 https://github.com/hashicorp/terraform/issues/12393 and https://github.com/hashicorp/terraform/issues/4149

替代解决方案是:

  1. 首先使用 2-staged apply 和 target GKE 集群,然后是依赖它的任何其他东西,即 terraform apply -target=google_container_cluster.primary 然后是 terraform apply
  2. 从 K8S 配置中分离出 GKE 集群配置,为它们提供完全隔离的工作流程,并通过 remote state 连接它们。

/terraform-gke/main.tf

terraform {
  backend "gcs" {
    bucket  = "tf-state-prod"
    prefix  = "terraform/state"
  }
}

provider "google" {
  region = "us-west1"
}

data "google_compute_zones" "available" {}

resource "google_container_cluster" "primary" {
  name = "the-only-marcellus-wallace"
  zone = "${data.google_compute_zones.available.names[0]}"
  initial_node_count = 3

  additional_zones = [
    "${data.google_compute_zones.available.names[1]}"
  ]

  master_auth {
    username = "mr.yoda"
    password = "adoy.rm"
  }

  node_config {
    oauth_scopes = [
      "https://www.googleapis.com/auth/compute",
      "https://www.googleapis.com/auth/devstorage.read_only",
      "https://www.googleapis.com/auth/logging.write",
      "https://www.googleapis.com/auth/monitoring"
    ]
  }
}

output "gke_host" {
  value = "https://${google_container_cluster.primary.endpoint}"
}

output "gke_username" {
  value = "${google_container_cluster.primary.master_auth.0.username}"
}

output "gke_password" {
  value = "${google_container_cluster.primary.master_auth.0.password}"
}

output "gke_client_certificate" {
  value = "${base64decode(google_container_cluster.primary.master_auth.0.client_certificate)}"
}

output "gke_client_key" {
  value = "${base64decode(google_container_cluster.primary.master_auth.0.client_key)}"
}

output "gke_cluster_ca_certificate" {
  value = "${base64decode(google_container_cluster.primary.master_auth.0.cluster_ca_certificate)}"
}

在这里,我们通过 outputs 公开所有必要的配置,并使用后端存储状态,以及远程位置的这些输出,在本例中为 GCS。这使我们能够在下面的配置中引用它。

/terraform-k8s/main.tf

data "terraform_remote_state" "foo" {
  backend = "gcs"
  config {
    bucket  = "tf-state-prod"
    prefix  = "terraform/state"
  }
}

provider "kubernetes" {
  host = "https://${data.terraform_remote_state.foo.gke_host}"
  username = "${data.terraform_remote_state.foo.gke_username}"
  password = "${data.terraform_remote_state.foo.gke_password}"
  client_certificate = "${base64decode(data.terraform_remote_state.foo.gke_client_certificate)}"
  client_key = "${base64decode(data.terraform_remote_state.foo.gke_client_key)}"
  cluster_ca_certificate = "${base64decode(data.terraform_remote_state.foo.gke_cluster_ca_certificate)}"
}

resource "kubernetes_namespace" "n" {
  metadata {
    name = "blablah"
  }
}

这里可能不明显的是,集群必须 created/updated 在 creating/updating 任何 K8S 资源之前(如果此类更新依赖于集群的更新)。


采用第二种方法通常是可取的(即使 when/if 错误不是一个因素并且跨供应商引用有效)因为它减少了爆炸半径并定义了更清晰的责任。这种部署通常有 1 个 person/team 负责管理集群,另一个负责管理 K8S 资源。

虽然肯定会有重叠 - 例如运维人员希望在新的 GKE 集群之上部署日志记录和监控基础设施,因此跨提供商依赖旨在满足此类用例。出于这个原因,我建议订阅上面提到的 GH 问题。