使用 django 的 Web 抓取工具(python for web)

Web Scraper Using django (python for web)

一个月左右吧?

我一直在网上搜索使用 python 进行网页抓取,我发现 beautifulSoup 和许多其他抓取工具,例如 Scrapy、scraper 等

都是一样的...可能会有一点不同..

我观看或阅读的大多数教程都与...相同

好的,我在这里要做的是:

除了将我想抓取的 URL 放入代码中...我希望用户输入 url 然后刮刀抓取 url 用户已在 HTML 字段中粘贴

所有教程都有这样的代码:

url = (http://......)

不...我想要这样的:

url = (USER INPUT)

示例视频: Link scraper
有趣的是他在他的教程中实际上并没有这样做......我想?

但是,是的,这就是我想要做的,如果您有任何教程或文档,请帮助我!!

谢谢!

如果您使用的是 Django,请在 html 页面上为 url 设置一个带有文本输入字段的表单。提交时,如果您设置正确,此 url 将出现在 POST 变量中。然后在后端处理 POST 的 url,获取用户的输入 url。 如果您不知道如何设置表单,请参阅 https://tutorial.djangogirls.org/en/django_forms/

在您看来

import requests
from bs4 import BeautifulSoup

创建一个表单,用户将从中post url 进行报废

具体查看函数中

url = form.cleaned_data.get['name of the input field']
data = requests.get(url)

然后对报废的数据执行您需要执行的操作