Python URL 结束字符串计数器
Python URL end string counter
我回到了我在 Python 的一个旧项目,但我似乎忘记了我是如何设法提取数据的,如果有人能指出正确的方向和实现这个的文档的话, 不胜感激
我实现了一个网络爬虫,它通过扫描我的 html 代码从 HTML 页面中提取信息。 mywebsite.com/product=1 的 URL 是使用我使用过的 BeautifulSoup 和 urllib2 库扫描的。
但我想让 mywebsite.com 递增到最大值 10。我究竟该如何提取、读取和替换 url 的末尾并替换它???我注意到其他人实现了 urlparse 库来替换域 main,但它与我的方法不同。
> mywebsite.com/product=1
> mywebsite.com/product=2
> mywebsite.com/product=3
> mywebsite.com/product=4 ..
> mywebsite.com/product=10
谢谢!
你的意思是循环爬行10次吗?
for i in range(1, 11):
url = r"mywebsite.com/product=" + str(i)
url = r"mywebsite.com/product={}".format(i) # or use str.format
print(url)
# crawl and extract
我回到了我在 Python 的一个旧项目,但我似乎忘记了我是如何设法提取数据的,如果有人能指出正确的方向和实现这个的文档的话, 不胜感激
我实现了一个网络爬虫,它通过扫描我的 html 代码从 HTML 页面中提取信息。 mywebsite.com/product=1 的 URL 是使用我使用过的 BeautifulSoup 和 urllib2 库扫描的。
但我想让 mywebsite.com 递增到最大值 10。我究竟该如何提取、读取和替换 url 的末尾并替换它???我注意到其他人实现了 urlparse 库来替换域 main,但它与我的方法不同。
> mywebsite.com/product=1
> mywebsite.com/product=2
> mywebsite.com/product=3
> mywebsite.com/product=4 ..
> mywebsite.com/product=10
谢谢!
你的意思是循环爬行10次吗?
for i in range(1, 11):
url = r"mywebsite.com/product=" + str(i)
url = r"mywebsite.com/product={}".format(i) # or use str.format
print(url)
# crawl and extract