使用 wget 抓取特定的 URL
Use wget to crawl specific URLs
我正在尝试从网站抓取链接,然后使用下载管理器下载文件。
我试过:
wget --wait=20 --limit-rate=20K -r -p -U Mozilla "www.mywebsite.com"
我不知道如何使用 wget
或正则表达式来只保存所需的链接!
wget 提供了多种选项,用于在递归爬网中微调文件下载。
以下是您可能感兴趣的几个选项:
--accept-regex urlregex
下载任何 url 匹配 urlregex
。 urlregex
是与完整的 URL.
匹配的正则表达式
--reject-regex urlregex
忽略任何 url 匹配 urlregex
。 urlregex
是与完整的 URL.
匹配的正则表达式
-L
告诉 wget 只跟随相关链接。
相关链接示例:
<a href="foo.gif">
<a href="foo/bar.gif">
<a href="../foo/bar.gif">
非相关链接:
<a href="/foo.gif">
<a href="/foo/bar.gif">
<a href="http://www.server.com/foo/bar.gif">
参考资料
我正在尝试从网站抓取链接,然后使用下载管理器下载文件。
我试过:
wget --wait=20 --limit-rate=20K -r -p -U Mozilla "www.mywebsite.com"
我不知道如何使用 wget
或正则表达式来只保存所需的链接!
wget 提供了多种选项,用于在递归爬网中微调文件下载。
以下是您可能感兴趣的几个选项:
--accept-regex urlregex
下载任何 url 匹配 urlregex
。 urlregex
是与完整的 URL.
--reject-regex urlregex
忽略任何 url 匹配 urlregex
。 urlregex
是与完整的 URL.
-L
告诉 wget 只跟随相关链接。
相关链接示例:
<a href="foo.gif">
<a href="foo/bar.gif">
<a href="../foo/bar.gif">
非相关链接:
<a href="/foo.gif">
<a href="/foo/bar.gif">
<a href="http://www.server.com/foo/bar.gif">