在 docker 容器中设置活动 gcloud 帐户

Setting an active gcloud account in docker container

目前我正在 GKE 上设置 Kubeflow Pipeline。 目标是在 ML 引擎上开始训练作业,然后在 GKE 上提供它。

训练作业在 Docker 容器中启动。 (管道中的每一步都必须是一个容器。)

当 运行 容器时出现以下错误:

ERROR: (gcloud.ml-engine.jobs.submit.training) You do not currently have an active account selected.
Please run:

  $ gcloud auth login

to obtain new credentials, or if you have already logged in with a
different account:

  $ gcloud config set account ACCOUNT

to select an already authenticated account to use.

docker 容器按照 following answer 中的建议通过服务帐户获取凭据。

FROM tensorflow/tensorflow:1.8.0-devel-gpu-py3

RUN apt-get update -y && apt-get install --no-install-recommends -y -q ca-certificates python-dev python-setuptools wget unzip git


# Components to run ML Engine job on cluster
RUN cd / && \
    wget -nv https://dl.google.com/dl/cloudsdk/release/google-cloud-sdk.zip && \
    unzip -qq google-cloud-sdk.zip -d tools && \
    rm google-cloud-sdk.zip && \
    tools/google-cloud-sdk/install.sh --usage-reporting=false \
        --path-update=false --bash-completion=false \
        --disable-installation-options && \
    tools/google-cloud-sdk/bin/gcloud -q components update \
        gcloud core gsutil && \
    tools/google-cloud-sdk/bin/gcloud config set component_manager/disable_update_check true && \
    touch /tools/google-cloud-sdk/lib/third_party/google.py

ENV PATH $PATH:/tools/node/bin:/tools/google-cloud-sdk/bin

RUN mkdir /workdir

COPY . /workdir

RUN export GOOGLE_APPLICATION_CREDENTIALS=/workdir/ml6-sandbox-cdc8cb4bcae2.json

ENTRYPOINT ["bash", "/workdir/ml-engine/train.sh"]

错误出现在 train.sh 我正在提交培训作业的地方:

gcloud ml-engine jobs submit training $JOB_NAME \
    --job-dir $JOB_DIR \
    --runtime-version 1.8 \
    --python-version 3.5 \
    --module-name trainer.run_train \
    --package-path ./trainer \
    --region $REGION \
    --config=trainer/config.yaml \
    --stream-logs \
    -- \
    --data-dir $DATA_DIR \
    --version $VERSION

在我的 run_train.py 中,我得到 Google 应用程序凭证如下:

os.environ[
        "GOOGLE_APPLICATION_CREDENTIALS"] = '/workdir/ml6-sandbox-cdc8cb4bcae2.json'

Train.sh 独立工作。

你只需要在 using the client libraries 时设置 GOOGLE_APPLICATION_CREDENTIALS 环境变量。

在您使用 gcloud CLI 时更改此行:

RUN export GOOGLE_APPLICATION_CREDENTIALS=/workdir/ml6-sandbox-cdc8cb4bcae2.json

gcloud auth activate-service-account yourServiceAccount --key-file=/workdir/ml6-sandbox-cdc8cb4bcae2.json

这会将您的服务帐户记录为 gcloud 使用的活动帐户。

此外,需要为该服务帐户授予适当的 roles