Beautifulsoup 和 link 带哈希#

Beautifulsoup and link with a hash #

我正在使用 Beautifulsoup 和 Python。我尝试从包含哈希 # 的 link 中获取元素。是分页link，#后面的部分是页码

它不起作用，我知道问题是因为 urllib2 无法处理这个问题，因为 # 之后的 URL 部分用于客户端处理，并且永远不会发送到服务器。

所以我在 Chrome 中使用开发人员工具的网络选项卡检查了真实的 URL，它给了我这个：

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

看起来服务器根本不喜欢这个 URL 因为它 returns 我是一个空白页面，只包含这个奇怪的结果：{"filtersBlock":"\n\n

所以我的问题是，有没有办法用 BeautifulSoup 处理这类 link？

我找到了一种使用 BeautifulSoup 抓取 DOM 和 Selenium 来处理这些包含 # 的 link 的方法。只需将包含 # 的 link 传递给带有 driver.get("www.myserver.com/products#/page-2") 的 Selenium 驱动程序即可。

Beautifulsoup 和 link 带哈希#

Beautifulsoup and link with a hash #

python

urllib2

beautifulsoup

hyperlink

web-scraping