为什么 srcset 属性只有在 img 标签中的 src 属性之前使用时才能正常工作

Question

我有一个谜。这个问题本身现在已经解决了，但我仍然看不出真正的原因：在我们的图像共享网站 Pixabay.com 上，我们最近为搜索结果的 img 标签实现了 srcset 属性.您可以在此处看到实际效果：https://pixabay.com/photos/

那里的典型 img 标签如下所示：

<img src="/image__180.jpg" srcset="/image__180.jpg 1x, /image__340.jpg 2x" alt="...">

效果非常好 - 对于大约 99% 的用户来说。但是，一些人报告看到了此屏幕截图中描述的问题：

页面上正确加载了大约 30-50 张图像，而其他图像则导致图像损坏。我们意识到，我们的 NGINX 日志包含一些这样的错误：

open() "/.../image__180.jpg" srcset="/image__180.jpg 1x, /image__340.jpg 2x" failed (2: No such file or directory)

显然，由于未知原因，客户端请求了整个表达式（src 的值+"srcset"+srcset 的值）作为图像路径，这当然导致错误 404。

我们玩了一下，发现，首先在 img 标签上提供 srcset 然后 src 属性解决了这个问题。不再有错误日志，不再有投诉。

<img srcset="/image__180.jpg 1x, /image__340.jpg 2x" src="/image__180.jpg" alt="...">

我在网上找不到任何关于此行为的报告。但我想了解更多。这是在 Pixabay 上与几个用户报告问题的讨论：https://pixabay.com/en/forum/help-me-please-11/pixabay-technical-difficulties-1474/?pagi=2

你有解释吗？

Answer 1

浏览器绝对没有办法正常搞砸它。 HTML 解析器是坚如磐石的，它们不会随机地吃掉属性的额外字节。

这绝对是一个代理或其他一些以某种方式破坏标记的 MITM。我建议放入一些 JS，它可以快速检查页面上的所有 src 属性并检查是否包含 "srcset"，如果包含，请尽可能多地记录有关 UA 或其他内容的信息，以便您可以尝试查找他们之间的共同点。

怀疑它可能是一些奇怪的代理 examining/rewriting 来源，使用像 /image.*.jpg/ 这样的正则表达式并将其重写回 URL-escaped。这将捕获从 src 图像开始到 srcset 中最终 .jpg 的所有内容，并转义它们之间的所有空格和引号，这样您就可以获得一个大的 src属性值。

或者，由于这显然是通过 HTTPS 传送的，这减少了代理重写的可能性，它可能是一个行为不当的扩展。

为什么 srcset 属性只有在 img 标签中的 src 属性之前使用时才能正常工作

Why is the srcset attribute only working correctly when used before the src attribute in img tags

html

image

nginx

src

srcset