读取从硒中检索到的汤中的 html 源

Reading html source in soup retrieved from selenium

driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
html_source=driver.page_source   
html = BeautifulSoup(html_source)

为什么 html_source 和 html 不同。我在这里做错了什么?

如果您只使用一个参数调用 BeautifulSoup,您会将文档解析为 html 一个。如果一个标签不是 HTML 有效标签,将修改其更正和文档。可以看到Beautiful Soup Specifying the parser to use.

driver.get 与大多数其他 get 方法不同,您只访问页面。然后,您可以使用 driver.page_source:

获取 html
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
soup = BeautifulSoup(driver.page_source)