是否可以配置storm爬虫爬取时将主机url添加到url路由的最前面?
Can I configure storm crawler to add the host url to the front of the url route during crawling?
我想像这样抓取前面没有主机的 url。
<div class=pro-info>
<a href="/being-human-mens-solid-polo-t-shirt/p-202971521">
</div
我可以使用 stormcrawler 中的配置文件在这些 url 前面添加 url 的主机部分吗?
URL 将在解析过程中变为绝对值。获得完整的 URLs 应该没有什么特别的事情要做。
我想像这样抓取前面没有主机的 url。
<div class=pro-info>
<a href="/being-human-mens-solid-polo-t-shirt/p-202971521">
</div
我可以使用 stormcrawler 中的配置文件在这些 url 前面添加 url 的主机部分吗?
URL 将在解析过程中变为绝对值。获得完整的 URLs 应该没有什么特别的事情要做。