grpc epoll fd：云 ml 作业中的 4 个错误

Question

我正在尝试运行云 ML 的工作。这是第一个，所以我没有做任何花哨的事情（或者我不知道）。我已经在本地尝试过这项工作，并且效果很好。我正在这样提交作业：

gcloud ml-engine jobs submit training $JOB_NAME --job-dir $OUTPUT --module-name trainer.task --package-path trainer/ --runtime-version 1.2 -- --train-files $TRAIN_DATA --eval-files $EVAL_DATA --verbosity DEBUG

我有一个 setup.py 文件，因为我需要 tf 1.4。

我在云 ml 作业中收到以下错误：

17:37:18.590 master-replica-0 grpc epoll fd: 4
{
 insertId:  "3bz8czg6uycja0"   
 jsonPayload: {
  created:  1511887038.59055    
  levelname:  "ERROR"    
  lineno:  1051    
  message:  "    grpc epoll fd: 4"    
  pathname:  "ev_epoll1_linux.c"    
  thread:  228    
 }
 labels: {
  compute.googleapis.com/resource_id:  "56570433820965707"    
  compute.googleapis.com/resource_name:  "cmle-training-master-93c1f629dc-0-1sbpv"    
  compute.googleapis.com/zone:  "europe-west1-c"    
  ml.googleapis.com/job_id:  "XXXXX"    
  ml.googleapis.com/job_id/log_area:  "root"    
  ml.googleapis.com/task_name:  "master-replica-0"    
  ml.googleapis.com/trial_id:  ""    
 }
 logName:  "projects/fibi-tech/logs/master-replica-0"   
 receiveTimestamp:  "2017-11-28T16:37:27.139888642Z"   
 resource: {
  labels: {…}   
  type:  "ml_job"    
 }
 severity:  "ERROR"   
 timestamp:  "2017-11-28T16:37:18.590551137Z"   
}

错误发生后没有其他事情发生（至少十分钟内没有发生），我必须手动停止作业。

谢谢！

Answer 1

我在使用 Estimator API 和 ml-engine 时遇到了类似的问题。解决方案是使用 tf.estimator.train_and_eval()。看我的另一个postml-engine vague error: "grpc epoll fd: 3"

grpc epoll fd：云 ml 作业中的 4 个错误

grpc epoll fd: 4 error in cloud ml job

google-cloud-ml