Python URL 结束字符串计数器

Question

我回到了我在 Python 的一个旧项目，但我似乎忘记了我是如何设法提取数据的，如果有人能指出正确的方向和实现这个的文档的话, 不胜感激

我实现了一个网络爬虫，它通过扫描我的 html 代码从 HTML 页面中提取信息。 mywebsite.com/product=1 的 URL 是使用我使用过的 BeautifulSoup 和 urllib2 库扫描的。

但我想让 mywebsite.com 递增到最大值 10。我究竟该如何提取、读取和替换 url 的末尾并替换它？？？我注意到其他人实现了 urlparse 库来替换域 main，但它与我的方法不同。

>  mywebsite.com/product=1  
>  mywebsite.com/product=2 
>  mywebsite.com/product=3  
>  mywebsite.com/product=4  .. 
>  mywebsite.com/product=10

谢谢！

Answer 1

你的意思是循环爬行10次吗？

for i in range(1, 11):
    url = r"mywebsite.com/product=" + str(i)
    url = r"mywebsite.com/product={}".format(i) # or use str.format
    print(url)

    # crawl and extract

Python URL 结束字符串计数器

Python URL end string counter

python

url

counter

extract