如何从 Microsoft 更新目录网页获取更新二进制文件 URL?
How to fetch update binary URL from Microsoft Update Catalog web-page?
我正在尝试从 Microsoft 更新目录网页下载 URL 更新二进制文件。下载按钮将我带到一个新的 window,我在上面有目标二进制文件 URL。
如何通过解析目录网页获取二进制 URL。
我尝试了以下方式
import urllib.request
def main():
url = 'https://catalog.update.microsoft.com/v7/site/Search.aspx?q=KB3205400'
offlinePage = 'catalog.html'
print(url)
sourceWebPage(url, offlinePage)
def sourceWebPage(url, offlinePage):
request=urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(request)
data = response.read()
with open(offlinePage, 'wb') as f:
f.write(data)
if __name__ == '__main__':
main()
但是保存的 HTML 源文件没有 link 到目标二进制文件 URL。
<a id="431bdad0-e68b-4275-8f14-e9c90fa2a9b0_link" href="javascript:void(0);" onclick="goToDetails("431bdad0-e68b-4275-8f14-e9c90fa2a9b0");">
下载弹窗window由JavaScript生成,您无法使用requests
或urllib
来处理JavaScript。我推荐你使用 selenium..
我正在尝试从 Microsoft 更新目录网页下载 URL 更新二进制文件。下载按钮将我带到一个新的 window,我在上面有目标二进制文件 URL。
如何通过解析目录网页获取二进制 URL。
我尝试了以下方式
import urllib.request
def main():
url = 'https://catalog.update.microsoft.com/v7/site/Search.aspx?q=KB3205400'
offlinePage = 'catalog.html'
print(url)
sourceWebPage(url, offlinePage)
def sourceWebPage(url, offlinePage):
request=urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(request)
data = response.read()
with open(offlinePage, 'wb') as f:
f.write(data)
if __name__ == '__main__':
main()
但是保存的 HTML 源文件没有 link 到目标二进制文件 URL。
<a id="431bdad0-e68b-4275-8f14-e9c90fa2a9b0_link" href="javascript:void(0);" onclick="goToDetails("431bdad0-e68b-4275-8f14-e9c90fa2a9b0");">
下载弹窗window由JavaScript生成,您无法使用requests
或urllib
来处理JavaScript。我推荐你使用 selenium..