grpc epoll fd:云 ml 作业中的 4 个错误
grpc epoll fd: 4 error in cloud ml job
我正在尝试 运行 云 ML 的工作。这是第一个,所以我没有做任何花哨的事情(或者我不知道)。我已经在本地尝试过这项工作,并且效果很好。我正在这样提交作业:
gcloud ml-engine jobs submit training $JOB_NAME --job-dir $OUTPUT --module-name trainer.task --package-path trainer/ --runtime-version 1.2 -- --train-files $TRAIN_DATA --eval-files $EVAL_DATA --verbosity DEBUG
我有一个 setup.py 文件,因为我需要 tf 1.4。
我在云 ml 作业中收到以下错误:
17:37:18.590 master-replica-0 grpc epoll fd: 4
{
insertId: "3bz8czg6uycja0"
jsonPayload: {
created: 1511887038.59055
levelname: "ERROR"
lineno: 1051
message: " grpc epoll fd: 4"
pathname: "ev_epoll1_linux.c"
thread: 228
}
labels: {
compute.googleapis.com/resource_id: "56570433820965707"
compute.googleapis.com/resource_name: "cmle-training-master-93c1f629dc-0-1sbpv"
compute.googleapis.com/zone: "europe-west1-c"
ml.googleapis.com/job_id: "XXXXX"
ml.googleapis.com/job_id/log_area: "root"
ml.googleapis.com/task_name: "master-replica-0"
ml.googleapis.com/trial_id: ""
}
logName: "projects/fibi-tech/logs/master-replica-0"
receiveTimestamp: "2017-11-28T16:37:27.139888642Z"
resource: {
labels: {…}
type: "ml_job"
}
severity: "ERROR"
timestamp: "2017-11-28T16:37:18.590551137Z"
}
错误发生后没有其他事情发生(至少十分钟内没有发生),我必须手动停止作业。
谢谢!
我在使用 Estimator API 和 ml-engine 时遇到了类似的问题。解决方案是使用 tf.estimator.train_and_eval()
。看我的另一个postml-engine vague error: "grpc epoll fd: 3"
我正在尝试 运行 云 ML 的工作。这是第一个,所以我没有做任何花哨的事情(或者我不知道)。我已经在本地尝试过这项工作,并且效果很好。我正在这样提交作业:
gcloud ml-engine jobs submit training $JOB_NAME --job-dir $OUTPUT --module-name trainer.task --package-path trainer/ --runtime-version 1.2 -- --train-files $TRAIN_DATA --eval-files $EVAL_DATA --verbosity DEBUG
我有一个 setup.py 文件,因为我需要 tf 1.4。
我在云 ml 作业中收到以下错误:
17:37:18.590 master-replica-0 grpc epoll fd: 4
{
insertId: "3bz8czg6uycja0"
jsonPayload: {
created: 1511887038.59055
levelname: "ERROR"
lineno: 1051
message: " grpc epoll fd: 4"
pathname: "ev_epoll1_linux.c"
thread: 228
}
labels: {
compute.googleapis.com/resource_id: "56570433820965707"
compute.googleapis.com/resource_name: "cmle-training-master-93c1f629dc-0-1sbpv"
compute.googleapis.com/zone: "europe-west1-c"
ml.googleapis.com/job_id: "XXXXX"
ml.googleapis.com/job_id/log_area: "root"
ml.googleapis.com/task_name: "master-replica-0"
ml.googleapis.com/trial_id: ""
}
logName: "projects/fibi-tech/logs/master-replica-0"
receiveTimestamp: "2017-11-28T16:37:27.139888642Z"
resource: {
labels: {…}
type: "ml_job"
}
severity: "ERROR"
timestamp: "2017-11-28T16:37:18.590551137Z"
}
错误发生后没有其他事情发生(至少十分钟内没有发生),我必须手动停止作业。
谢谢!
我在使用 Estimator API 和 ml-engine 时遇到了类似的问题。解决方案是使用 tf.estimator.train_and_eval()
。看我的另一个postml-engine vague error: "grpc epoll fd: 3"