wifi 断开时本地套接字绑定失败

Failure on local socket bind when wifi drops

我们在 raspberry pi 上遇到了这个奇怪的问题。

我们 运行 套接字上的服务应该可以通过 wifi 为本地和远程客户端工作。 问题在于停止远程网络也会停止来自本地客户端的连接。

我们的 python 服务器设置了这样的套接字:

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
s.setsockopt(socket.SOL_SOCKET, socket.SO_DONTROUTE, 1)
s.settimeout(2)
s.bind(("", 8888))

while True:

    try:
        conn, addr = s.accept()
    except socket.timeout:
        print("Socket timeout on s.accept(), continuing")
        continue

    #do stuff

我们有一个本地节点客户端 运行 大约每秒执行一次这样的循环(并实际发送数据):

// every second
socket.connect("localhost", "8888" );
socket.on('connect', function() { /* do stuff */ });
socket.on('error', function(ex) { });

在我们切断 wifi 之前一切 运行 都很好。 我们的服务器端在 s.accept 超时,我们在日志中看到错误消息。

我认为套接字一定会在 0.0.0.0 上侦听,但不会以某种方式故障转移到 127.0.0.1 或发生某种奇怪的路由情况。

netstat -an | grep 8888 给出

tcp        0      0 0.0.0.0:8888            0.0.0.0:*               LISTEN
tcp        0      0 127.0.0.1:8888          127.0.0.1:52794         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52724         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52740         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52778         TIME_WAIT

netstart -rn 给出

Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
default         192.168.1.1     0.0.0.0         UG    304    0        0 wlan0
192.168.1.0     0.0.0.0         255.255.255.0   U     304    0        0 wlan0

我猜我们只需要一个本地主机路由?

当 wifi 恢复时,本地连接再次建立。所以我没有永久删除 python 套接字中的绑定。

/etc/nsswitch.conf 中的主机行给出

hosts:          files mdns4_minimal [NOTFOUND=return] dns

我们在测试期间监控了对本地主机的 ping,它继续正常运行。 我们还监视了 netstat 以查看端口在 0.0.0.0 上保持监听状态。也许这就是问题所在?

最简单的解决方案

您似乎应该避免使用“127.0.0.1”来命名,如我们的评论讨论中所述。

更详细:

根据来源和 docs (after nodejs first tests for an ip,) it checks if you've provided a lookup function as an option to connect, if not, it does its own "dns.lookup" 调用作为默认值。尽管有这个名字,这个函数实际上是在尝试使用系统命名,但可能会略有不同,例如它可能会尝试使用 ipv6。

要进一步调试,您可以尝试使用 dns.lookup 制作更直接的测试用例,并比较 getent ahosts|ahostsv4|ahostsv6 localhost 与您的不同系统以及 wifi 关闭时的输出等内容,以及比较 gai.conf 之类的其他配置,以尝试确定该系统上的系统命名是否略有不同,或者给出的请求是否略有不同。