Beautifulsoup 和 link 带哈希#
Beautifulsoup and link with a hash #
我正在使用 Beautifulsoup 和 Python。
我尝试从包含哈希 # 的 link 中获取元素。是分页link,#后面的部分是页码
它不起作用,我知道问题是因为 urllib2 无法处理这个问题,因为 # 之后的 URL 部分用于客户端处理,并且永远不会发送到服务器。
所以我在 Chrome 中使用开发人员工具的网络选项卡检查了真实的 URL,它给了我这个:
看起来服务器根本不喜欢这个 URL 因为它 returns 我是一个空白页面,只包含这个奇怪的结果:{"filtersBlock":"\n\n
所以我的问题是,有没有办法用 BeautifulSoup 处理这类 link?
我找到了一种使用 BeautifulSoup 抓取 DOM 和 Selenium 来处理这些包含 # 的 link 的方法。只需将包含 # 的 link 传递给带有 driver.get("www.myserver.com/products#/page-2")
的 Selenium 驱动程序即可。
我正在使用 Beautifulsoup 和 Python。 我尝试从包含哈希 # 的 link 中获取元素。是分页link,#后面的部分是页码
它不起作用,我知道问题是因为 urllib2 无法处理这个问题,因为 # 之后的 URL 部分用于客户端处理,并且永远不会发送到服务器。
所以我在 Chrome 中使用开发人员工具的网络选项卡检查了真实的 URL,它给了我这个:
看起来服务器根本不喜欢这个 URL 因为它 returns 我是一个空白页面,只包含这个奇怪的结果:{"filtersBlock":"\n\n
所以我的问题是,有没有办法用 BeautifulSoup 处理这类 link?
我找到了一种使用 BeautifulSoup 抓取 DOM 和 Selenium 来处理这些包含 # 的 link 的方法。只需将包含 # 的 link 传递给带有 driver.get("www.myserver.com/products#/page-2")
的 Selenium 驱动程序即可。