wifi 断开时本地套接字绑定失败
Failure on local socket bind when wifi drops
我们在 raspberry pi 上遇到了这个奇怪的问题。
我们 运行 套接字上的服务应该可以通过 wifi 为本地和远程客户端工作。
问题在于停止远程网络也会停止来自本地客户端的连接。
我们的 python 服务器设置了这样的套接字:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
s.setsockopt(socket.SOL_SOCKET, socket.SO_DONTROUTE, 1)
s.settimeout(2)
s.bind(("", 8888))
while True:
try:
conn, addr = s.accept()
except socket.timeout:
print("Socket timeout on s.accept(), continuing")
continue
#do stuff
我们有一个本地节点客户端 运行 大约每秒执行一次这样的循环(并实际发送数据):
// every second
socket.connect("localhost", "8888" );
socket.on('connect', function() { /* do stuff */ });
socket.on('error', function(ex) { });
在我们切断 wifi 之前一切 运行 都很好。
我们的服务器端在 s.accept 超时,我们在日志中看到错误消息。
我认为套接字一定会在 0.0.0.0 上侦听,但不会以某种方式故障转移到 127.0.0.1 或发生某种奇怪的路由情况。
netstat -an | grep 8888
给出
tcp 0 0 0.0.0.0:8888 0.0.0.0:* LISTEN
tcp 0 0 127.0.0.1:8888 127.0.0.1:52794 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52724 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52740 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52778 TIME_WAIT
netstart -rn
给出
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
default 192.168.1.1 0.0.0.0 UG 304 0 0 wlan0
192.168.1.0 0.0.0.0 255.255.255.0 U 304 0 0 wlan0
我猜我们只需要一个本地主机路由?
当 wifi 恢复时,本地连接再次建立。所以我没有永久删除 python 套接字中的绑定。
/etc/nsswitch.conf
中的主机行给出
hosts: files mdns4_minimal [NOTFOUND=return] dns
我们在测试期间监控了对本地主机的 ping,它继续正常运行。
我们还监视了 netstat 以查看端口在 0.0.0.0 上保持监听状态。也许这就是问题所在?
最简单的解决方案
您似乎应该避免使用“127.0.0.1”来命名,如我们的评论讨论中所述。
更详细:
根据来源和 docs (after nodejs first tests for an ip,) it checks if you've provided a lookup function as an option to connect, if not, it does its own "dns.lookup" 调用作为默认值。尽管有这个名字,这个函数实际上是在尝试使用系统命名,但可能会略有不同,例如它可能会尝试使用 ipv6。
要进一步调试,您可以尝试使用 dns.lookup 制作更直接的测试用例,并比较 getent ahosts|ahostsv4|ahostsv6 localhost
与您的不同系统以及 wifi 关闭时的输出等内容,以及比较 gai.conf 之类的其他配置,以尝试确定该系统上的系统命名是否略有不同,或者给出的请求是否略有不同。
我们在 raspberry pi 上遇到了这个奇怪的问题。
我们 运行 套接字上的服务应该可以通过 wifi 为本地和远程客户端工作。 问题在于停止远程网络也会停止来自本地客户端的连接。
我们的 python 服务器设置了这样的套接字:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
s.setsockopt(socket.SOL_SOCKET, socket.SO_DONTROUTE, 1)
s.settimeout(2)
s.bind(("", 8888))
while True:
try:
conn, addr = s.accept()
except socket.timeout:
print("Socket timeout on s.accept(), continuing")
continue
#do stuff
我们有一个本地节点客户端 运行 大约每秒执行一次这样的循环(并实际发送数据):
// every second
socket.connect("localhost", "8888" );
socket.on('connect', function() { /* do stuff */ });
socket.on('error', function(ex) { });
在我们切断 wifi 之前一切 运行 都很好。 我们的服务器端在 s.accept 超时,我们在日志中看到错误消息。
我认为套接字一定会在 0.0.0.0 上侦听,但不会以某种方式故障转移到 127.0.0.1 或发生某种奇怪的路由情况。
netstat -an | grep 8888
给出
tcp 0 0 0.0.0.0:8888 0.0.0.0:* LISTEN
tcp 0 0 127.0.0.1:8888 127.0.0.1:52794 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52724 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52740 TIME_WAIT
tcp 0 0 127.0.0.1:8888 127.0.0.1:52778 TIME_WAIT
netstart -rn
给出
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
default 192.168.1.1 0.0.0.0 UG 304 0 0 wlan0
192.168.1.0 0.0.0.0 255.255.255.0 U 304 0 0 wlan0
我猜我们只需要一个本地主机路由?
当 wifi 恢复时,本地连接再次建立。所以我没有永久删除 python 套接字中的绑定。
/etc/nsswitch.conf
中的主机行给出
hosts: files mdns4_minimal [NOTFOUND=return] dns
我们在测试期间监控了对本地主机的 ping,它继续正常运行。 我们还监视了 netstat 以查看端口在 0.0.0.0 上保持监听状态。也许这就是问题所在?
最简单的解决方案
您似乎应该避免使用“127.0.0.1”来命名,如我们的评论讨论中所述。
更详细:
根据来源和 docs (after nodejs first tests for an ip,) it checks if you've provided a lookup function as an option to connect, if not, it does its own "dns.lookup" 调用作为默认值。尽管有这个名字,这个函数实际上是在尝试使用系统命名,但可能会略有不同,例如它可能会尝试使用 ipv6。
要进一步调试,您可以尝试使用 dns.lookup 制作更直接的测试用例,并比较 getent ahosts|ahostsv4|ahostsv6 localhost
与您的不同系统以及 wifi 关闭时的输出等内容,以及比较 gai.conf 之类的其他配置,以尝试确定该系统上的系统命名是否略有不同,或者给出的请求是否略有不同。