从 HTML JS src 标签导出正确的 URL

Derive correct URLs from HTML JS src tag

我正在使用 Python3 的 html.parser 解析 HTML 网站以搜索所有包含的 JavaScript 文件。为此,我遍历所有 script 标签并检索 src 属性的内容。

挑战在于构建正确的 URLs。 src 属性可能包含一个完全限定的 URL,如 https://example.com/jsfile.js,但它也可能只包含一个相对路径。在这些情况下,我必须手动设置方案(http 或 https)和域/网络位置。

因为我想不出一个可靠的解决方案:有人知道我如何在 Python3.5 中做到这一点吗?

提前致谢, 安迪

使用

urllib.parse.urljoin 获取完整网址

如果是完整路径,它将 return 原样,如果是相对路径,它将 return 完整路径。

这里有一个例子: