获取用于制作网络爬虫的页面的完整 html 源代码

Getting a full html source code of a page for making a web crawler

我正在尝试在 java 中制作一个网络爬虫,它获取网页的 URL 并导航到给定网页源代码中存在的其他页面。问题是,我在 jsoup 的帮助下获得了 HTML 的源代码,其中包含各种标签,如框架和一些 java 脚本文件名。现在要导航到其他页面,我需要访问框架和 java 脚本文件中给出的 http 链接。我应该如何在列表中获取这些链接。

你需要递归地做...在 DOM 对象中找到一个帧 tag/Element,是时候获取它的 "src" 属性的 DOM 了,继续做它将您在后续提取中找到的所有链接存储到一个数组中。
您可以使用新线程来获取帧 DOM。只是为了让整个过程更快一点。