使用具有加密值的节点js抓取websphere网站

Scraping websphere website using node js with encrypted value

我正在抓取网站,它是在 websphere 上制作的。

我看到每当用户登录时,在到达主页时点击 4 url。

而在第 3 个 URL 中,它有一些看起来像这样的加密值

 L0lDU0NTSUpKZ2tLQ2xFS0NXXXXXXXXXXXXXXXXXXX..XXXXXXXXXvZD1vbkxvYWQ!

URL 看起来像这样:

   http://example.com/escares/wps/myportal/!ut/p/c1/XXXXXXXXXX/dl2/d1/L0lDU0NTSUpKZ2tLQ2xFS0NXXXXXXXXXXXXXXXXXXX..XXXXXXXXXvZD1vbkxvYWQ!

问题是,我注意到每次登录时只有加密值会发生变化。

websphere 中有生成这种 url 的算法吗?或者有什么方法可以复制这个加密值?

有人在 websphere 网站上做过 crawling/scraping 吗?

wps/myportal 建议 Websphere web portal login。您看到的 'encrypted' URI 很可能是用于维护用户登录会话的哈希。

复制此内容的最佳方法是 supply your web scraping program with a username and password 访问网站的门户部分,以便它可以 POST 在抓取时登录。该网站本身将生成会话信息。您将需要指示您的抓取应用程序遵循生成的任何动态 URL。通常这是通过在登录后跟踪服务器提供的 HTML 中的任何 URL 来完成的。

例如,可以将 scrapy 配置为在抓取时跟踪目标页面中的任何 URL:

https://doc.scrapy.org/en/latest/intro/tutorial.html#following-links

虽然您正在使用自己的解决方案为登录用户抓取门户内容,但希望我的示例中说明的逻辑和进展有助于引导您朝着正确的方向解决看似 session/cookie 存储问题。

尽管 Chris 已经回答了这个问题并且对我有所帮助。

这一行

通常这是通过在登录后访问服务器提供的 HTML 中的任何 URL 来完成的。

只想用 Node js 更新。同样的事情可以通过请求模块和 cheerio 来实现,用于解析 Node JS 中的 html(作为响应出现)。

P.S。 :万一有人在看我在哪里找到动态 url,我发现它以 HTML 的形式出现在我的回应中。就是那个表格的动作。