为什么我的抓取工具得到错误的 HTML 代码？

Why does my Crawler get the wrong HTML code?

我想在 java 中为一些学校练习编写爬虫。实际上，用jsoup lib实现的爬虫代码是有效的，因为我的请求结果是一些HTML代码，但是当我搜索一个在网站上写得很清楚的词时，却找不到，因为一些div's 来自爬虫 where empty.

然后我意识到，我得到了与相同的代码，您可以在导航到该网站并 右键单击 -> [=32= 时看到]。当我将代码与 右键单击 -> 'inspect' 进行比较时， 代码与 'view page source' 中的 不同.

我能做些什么来获得包含完整内容的 HTML 代码吗？

您无法使用 jsoup 获取正确的代码，因为该网站动态加载内容。

此网页动态加载代码，即加载初始内容，然后执行其他代码以加载其余内容。 jsoup 只是一个 HTML 解析器，这意味着它可以解析给定的各种内容。它不能执行 Javascript 或等待加载外部文件。

要抓取这样的网站，您可能需要某种自动浏览器。我个人在 Python 中使用 Selenium 来抓取动态加载的网站。