URL in HTML 和 URL for desired link 不一样

URL in HTML and URL for desired link are not the same

我正在从中文学术文章数据库中挖掘一些 links。

似乎当我刷新页面到我正在查看的文章时,或者只是复制并粘贴 url,url 重定向到数据库的主页而不是文章.

例如,以下 link 进入我的搜索结果: http://search.cnki.net/search.aspx?q=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD

第一篇文章的个人url是: http://www.cnki.net/kcms/detail/detail.aspx?dbcode=CJFQ&dbName=CJFQ2016&FileName=KJDB201615009&v=&uid=

但是,如果您尝试直接点击文章 link 或刷新文章页面,它会重定向到数据库主页。为什么会这样?有什么方法可以让这些文章获得 "stable" url 吗?

尽管我不确定,但可能重要的一个细节是 HTML 代码中的 url 与各个文章的代码也不同。

<a href="http://epub.cnki.net/grid2008/brief/detailj.aspx?filename=KJDB201615009&amp;dbname=CJFDLAST2016" target="_blank">

这不完全取决于你。 您所引用的网站会检查您打开的 link 是直接 link 还是从同一网站的另一个页面打开的。 这可能是为了防止将本网站的 link 嵌入其他网站。 简而言之,它不允许直接 links 到它的文章。 您可以通过检查请求返回的 header 来查看它。

你得到的不是 200 OK,而是 302。

告诉浏览器重定向到另一个位置。 您可以尝试通过在您的请求中添加 "Referer" header 来欺骗该网站。

如果你看header 行得通 你会发现有一个。 我没有尝试,但我很确定它会起作用。