最近启动的 Google Compute Engine VM 的不确定连接成功

non-deterministic connection success for recently started Google Compute Engine VM

我正在使用 googleapiclient python api 启动虚拟机,然后 paramiko 通过 ssh 连接到它。

我用googleapiclient.discovery得到GCEapi

compute = googleapiclient.discovery.build('compute', 'v1')

我使用 start api 调用启动我的虚拟机

req  = compute.instances().start(project, zone, instance)
resp = request.execute()

while resp['status'] != 'DONE':
    time.sleep(1)
    resp = req.execute()

然后我执行 get 请求来查找 vm 详细信息,然后是临时外部 ip 地址

req  = compute.instances().get(project, zone, instance)
info = req.execute()

ip_address = info['networkInterfaces'][0]['accessConfigs'][0]['natIP']

最后,我使用paramiko连接到这个ip地址。

ssh_client = paramiko.SSHClient()
ssh_client.connect(ip_address)

不确定,connect 调用失败:

.../lib/python3.6/site-packages/paramiko/client.py", line 362, in connect
raise NoValidConnectionsError(errors)

paramiko.ssh_exception.NoValidConnections Error: 
[Errno None] Unable to connect to port 22 on xxx.xxx.xxx.xxx

这似乎与时间有关,因为在 ssh_client.connect 调用之前放入 time.sleep(5) 可以防止此错误。

我假设这允许 sshd 有足够的时间开始接受连接,但我不确定。

在我的代码中加入 sleep 是超级 hacky,所以我更愿意找到一种方法来确定性地等待 ssh 守护进程 运行 并且可供我连接到它(如果确实如此) NoValidConnections 异常的原因)

另外,我看到 paramikoconnect 调用中有一个 timeout 选项 - 我是否应该将我的 5 秒睡眠更改为 5 秒超时?

GCE 无法知道来宾是否支持 SSH。 (例如,想象一下来宾使用非标准方法允许远程连接的情况,因此即使检查 sshd 也行不通。即使您可以依赖 sshd,检查它是否正确的方法运行 取决于它的版本、主机 OS、配置等)GCE 只知道有关 VM 的硬件级别信息,例如它是否重新启动。

为了解决你的问题,我会像你描述的那样尝试 paramiko 中的超时机制,或者可能在超时的循环中重试连接尝试,因为 paramiko 可能不会在内部实现全状态重置重试(只是推测,我不确定)。

此外,我认为 5 秒可能有点低——对于平均响应时间来说可能没问题,但离群值会更慢,这可能会导致您的连接尝试不稳定。为了完全安全,也许将其缩短到 30 秒或 1 分钟。