是否可以强制 urllib 只获取普通 html,而不是图像、脚本等?
Is it possible to force urllib to just fetch plain html, not images, scripts, etc?
我正在使用 urllib
从网络上抓取数据。我正在尝试获取一个网站的不同页面,这些页面完全使用相同的模板、图像和 JS
代码(例如不同的用户配置文件)。问题是模板图像和脚本太重了,我不需要它们。我唯一关心的是页面的普通 HTML
。
有什么方法可以强制 urllib
仅获取普通 HTML
或至少从 python 代码执行良好的缓存机制?
我正在使用 urllib
从网络上抓取数据。我正在尝试获取一个网站的不同页面,这些页面完全使用相同的模板、图像和 JS
代码(例如不同的用户配置文件)。问题是模板图像和脚本太重了,我不需要它们。我唯一关心的是页面的普通 HTML
。
有什么方法可以强制 urllib
仅获取普通 HTML
或至少从 python 代码执行良好的缓存机制?