读取从硒中检索到的汤中的 html 源
Reading html source in soup retrieved from selenium
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
html_source=driver.page_source
html = BeautifulSoup(html_source)
为什么 html_source 和 html 不同。我在这里做错了什么?
如果您只使用一个参数调用 BeautifulSoup,您会将文档解析为 html 一个。如果一个标签不是 HTML 有效标签,将修改其更正和文档。可以看到Beautiful Soup Specifying the parser to use.
driver.get
与大多数其他 get
方法不同,您只访问页面。然后,您可以使用 driver.page_source
:
获取 html
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
soup = BeautifulSoup(driver.page_source)
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
html_source=driver.page_source
html = BeautifulSoup(html_source)
为什么 html_source 和 html 不同。我在这里做错了什么?
如果您只使用一个参数调用 BeautifulSoup,您会将文档解析为 html 一个。如果一个标签不是 HTML 有效标签,将修改其更正和文档。可以看到Beautiful Soup Specifying the parser to use.
driver.get
与大多数其他 get
方法不同,您只访问页面。然后,您可以使用 driver.page_source
:
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
soup = BeautifulSoup(driver.page_source)