Beautifulsoup 和 link 带哈希#

Beautifulsoup and link with a hash #

我正在使用 Beautifulsoup 和 Python。 我尝试从包含哈希 # 的 link 中获取元素。是分页link,#后面的部分是页码

它不起作用,我知道问题是因为 urllib2 无法处理这个问题,因为 # 之后的 URL 部分用于客户端处理,并且永远不会发送到服务器。

所以我在 Chrome 中使用开发人员工具的网络选项卡检查了真实的 URL,它给了我这个:

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

看起来服务器根本不喜欢这个 URL 因为它 returns 我是一个空白页面,只包含这个奇怪的结果:{"filtersBlock":"\n\n

所以我的问题是,有没有办法用 BeautifulSoup 处理这类 link?

我找到了一种使用 BeautifulSoup 抓取 DOM 和 Selenium 来处理这些包含 # 的 link 的方法。只需将包含 # 的 link 传递给带有 driver.get("www.myserver.com/products#/page-2") 的 Selenium 驱动程序即可。