最近启动的 Google Compute Engine VM 的不确定连接成功
non-deterministic connection success for recently started Google Compute Engine VM
我正在使用 googleapiclient
python api 启动虚拟机,然后 paramiko
通过 ssh 连接到它。
我用googleapiclient.discovery
得到GCE
api
compute = googleapiclient.discovery.build('compute', 'v1')
我使用 start
api 调用启动我的虚拟机
req = compute.instances().start(project, zone, instance)
resp = request.execute()
while resp['status'] != 'DONE':
time.sleep(1)
resp = req.execute()
然后我执行 get
请求来查找 vm 详细信息,然后是临时外部 ip 地址
req = compute.instances().get(project, zone, instance)
info = req.execute()
ip_address = info['networkInterfaces'][0]['accessConfigs'][0]['natIP']
最后,我使用paramiko
连接到这个ip地址。
ssh_client = paramiko.SSHClient()
ssh_client.connect(ip_address)
不确定,connect
调用失败:
.../lib/python3.6/site-packages/paramiko/client.py", line 362, in connect
raise NoValidConnectionsError(errors)
paramiko.ssh_exception.NoValidConnections Error:
[Errno None] Unable to connect to port 22 on xxx.xxx.xxx.xxx
这似乎与时间有关,因为在 ssh_client.connect
调用之前放入 time.sleep(5)
可以防止此错误。
我假设这允许 sshd
有足够的时间开始接受连接,但我不确定。
在我的代码中加入 sleep 是超级 hacky,所以我更愿意找到一种方法来确定性地等待 ssh 守护进程 运行 并且可供我连接到它(如果确实如此) NoValidConnections
异常的原因)
- 当 VM 为 运行 并且
sshd
对我可用时,有没有办法指示 GCE api 仅从 start
return要连接到?
- 有没有办法使用 GCE api 请求此信息?
另外,我看到 paramiko
在 connect
调用中有一个 timeout
选项 - 我是否应该将我的 5 秒睡眠更改为 5 秒超时?
GCE 无法知道来宾是否支持 SSH。 (例如,想象一下来宾使用非标准方法允许远程连接的情况,因此即使检查 sshd
也行不通。即使您可以依赖 sshd
,检查它是否正确的方法运行 取决于它的版本、主机 OS、配置等)GCE 只知道有关 VM 的硬件级别信息,例如它是否重新启动。
为了解决你的问题,我会像你描述的那样尝试 paramiko 中的超时机制,或者可能在超时的循环中重试连接尝试,因为 paramiko 可能不会在内部实现全状态重置重试(只是推测,我不确定)。
此外,我认为 5 秒可能有点低——对于平均响应时间来说可能没问题,但离群值会更慢,这可能会导致您的连接尝试不稳定。为了完全安全,也许将其缩短到 30 秒或 1 分钟。
我正在使用 googleapiclient
python api 启动虚拟机,然后 paramiko
通过 ssh 连接到它。
我用googleapiclient.discovery
得到GCE
api
compute = googleapiclient.discovery.build('compute', 'v1')
我使用 start
api 调用启动我的虚拟机
req = compute.instances().start(project, zone, instance)
resp = request.execute()
while resp['status'] != 'DONE':
time.sleep(1)
resp = req.execute()
然后我执行 get
请求来查找 vm 详细信息,然后是临时外部 ip 地址
req = compute.instances().get(project, zone, instance)
info = req.execute()
ip_address = info['networkInterfaces'][0]['accessConfigs'][0]['natIP']
最后,我使用paramiko
连接到这个ip地址。
ssh_client = paramiko.SSHClient()
ssh_client.connect(ip_address)
不确定,connect
调用失败:
.../lib/python3.6/site-packages/paramiko/client.py", line 362, in connect raise NoValidConnectionsError(errors) paramiko.ssh_exception.NoValidConnections Error: [Errno None] Unable to connect to port 22 on xxx.xxx.xxx.xxx
这似乎与时间有关,因为在 ssh_client.connect
调用之前放入 time.sleep(5)
可以防止此错误。
我假设这允许 sshd
有足够的时间开始接受连接,但我不确定。
在我的代码中加入 sleep 是超级 hacky,所以我更愿意找到一种方法来确定性地等待 ssh 守护进程 运行 并且可供我连接到它(如果确实如此) NoValidConnections
异常的原因)
- 当 VM 为 运行 并且
sshd
对我可用时,有没有办法指示 GCE api 仅从start
return要连接到? - 有没有办法使用 GCE api 请求此信息?
另外,我看到 paramiko
在 connect
调用中有一个 timeout
选项 - 我是否应该将我的 5 秒睡眠更改为 5 秒超时?
GCE 无法知道来宾是否支持 SSH。 (例如,想象一下来宾使用非标准方法允许远程连接的情况,因此即使检查 sshd
也行不通。即使您可以依赖 sshd
,检查它是否正确的方法运行 取决于它的版本、主机 OS、配置等)GCE 只知道有关 VM 的硬件级别信息,例如它是否重新启动。
为了解决你的问题,我会像你描述的那样尝试 paramiko 中的超时机制,或者可能在超时的循环中重试连接尝试,因为 paramiko 可能不会在内部实现全状态重置重试(只是推测,我不确定)。
此外,我认为 5 秒可能有点低——对于平均响应时间来说可能没问题,但离群值会更慢,这可能会导致您的连接尝试不稳定。为了完全安全,也许将其缩短到 30 秒或 1 分钟。