为什么我的抓取工具得到错误的 HTML 代码?

Why does my Crawler get the wrong HTML code?

我想在 java 中为一些学校练习编写爬虫。实际上,用jsoup lib实现的爬虫代码是有效的,因为我的请求结果是一些HTML代码,但是当我搜索一个在网站上写得很清楚的词时,却找不到,因为一些div's 来自爬虫 where empty.

然后我意识到,我得到了 相同的代码,您可以在导航到该网站并 右键单击​​ -> [=32= 时看到]。 当我将代码与 右键单击​​ -> 'inspect' 进行比较时, 代码与 'view page source' 中的 不同.

我能做些什么来获得包含完整内容的 HTML 代码吗?

请求URL:https://app.libertex.com/?lang=deu&_ga=2.222573595.1459393376.1568209606-1642141519.1566978579&_gac=1.53153498.1566978579.CjwKCAjwzJjrBRBvEiwA867byuxkXf35eSWyL2LJhLel3PRiGsSfvU6iLb00E21dQOkogLcx_z5G6hoCQgwQAvD_BwE

您无法使用 jsoup 获取正确的代码,因为该网站动态加载内容。

此网页动态加载代码,即加载初始内容,然后执行其他代码以加载其余内容。 jsoup 只是一个 HTML 解析器,这意味着它可以解析给定的各种内容。它不能执行 Javascript 或等待加载外部文件。

要抓取这样的网站,您可能需要某种自动浏览器。我个人在 Python 中使用 Selenium 来抓取动态加载的网站。