如何处理维基百科转储中的重定向?

How deal with redirects in Wikipedia dump?

我已使用 this guide.

成功将 enwiki-latest-pages-articles-multistream.XML 页面导入 MySQL

当我查找页面的文本时(here 描述的过程),它通常是 #REDIRECT [[some_page_name]]。我知道遵循此重定向的唯一方法是在所有页面标题中搜索 some_page_name。这不仅耗时,而且有时 完全 相同标题名称下有多篇文章!

我正在考虑从数据库中删除所有重定向页面。

但在我这样做之前,有没有更好的方法来处理这些重定向?

据我了解,您想确定重定向的目标是什么。正确的?。如果是,那么您可以使用此查询获取它:

select rd_title from redirect
inner join page
on page_id = rd_from
where page_title like "some_page_name"

rd_title 是重定向的目标页面。

如有错误请指正