读取从硒中检索到的汤中的 html 源

Question

driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
html_source=driver.page_source   
html = BeautifulSoup(html_source)

为什么 html_source 和 html 不同。我在这里做错了什么？

Answer 1

如果您只使用一个参数调用 BeautifulSoup，您会将文档解析为 html 一个。如果一个标签不是 HTML 有效标签，将修改其更正和文档。可以看到Beautiful Soup Specifying the parser to use.

Answer 2

driver.get 与大多数其他 get 方法不同，您只访问页面。然后，您可以使用 driver.page_source:

获取 html

driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
soup = BeautifulSoup(driver.page_source)

Reading html source in soup retrieved from selenium