每篇维基百科文章的受欢迎程度
Popularity of each wikipedia article
我想在我的数据库中存储所有 en.wikipedia 文章的列表。我想为每篇文章存储 pageid、标题和受欢迎程度。我考虑过使用观看次数(上个月)作为受欢迎程度的衡量标准,但如果这不可能,我可以想象做其他事情(也许使用修订次数)。我知道 http://dumps.wikimedia.org/enwiki/latest/ 并且我可以从那里获得完整的文章列表(当前计数 36508337)。但是,我找不到一种聪明的方法来获取每篇文章的浏览量。
// 更新、编辑、...
建议的副本对我没有帮助,因为
a) 我正在寻找受欢迎程度的衡量标准。其他问题的答案只是说明无法获得页面的观察者数量,这对我来说很好。
b) 那里没有给我每个页面的页面浏览量(或任何其他指标)的答案。
好的,我终于完成了。这是我所做的:
我找到 http://dumps.wikimedia.org/other/pagecounts-ez/ which provides page views per month. This seems promising but they don't mention the pageid so what I'm doing is getting a list of all articles from http://dumps.wikimedia.org/enwiki/latest/,创建一个映射名称->pageid,然后解析 pagecount 转储。这大约需要 30 分钟,以下是一些统计数据:
页数文件中 68% 的文章在最新转储中不存在。这可能是由于某些用户 linking,例如 Misfits_(TV_series) 而其他 link 到 Misfits_(tv_series) 甚至 Misfits_%28TV_series%29...我没有理会那些因为我的程序已经花了足够长的时间 运行.
前 3 页是:
2.1。首页浏览量 6.39 亿(上个月)
2.2。具有 850 万次浏览量的恶意软件
2.3。猎鹰 9 v1.1 浏览量 470 万(酷!)
我做了一个特定浏览量的页面数直方图,这里是:
我还绘制了当我忽略低于特定查看次数的所有文章时必须处理的页数。这是:
我想在我的数据库中存储所有 en.wikipedia 文章的列表。我想为每篇文章存储 pageid、标题和受欢迎程度。我考虑过使用观看次数(上个月)作为受欢迎程度的衡量标准,但如果这不可能,我可以想象做其他事情(也许使用修订次数)。我知道 http://dumps.wikimedia.org/enwiki/latest/ 并且我可以从那里获得完整的文章列表(当前计数 36508337)。但是,我找不到一种聪明的方法来获取每篇文章的浏览量。
// 更新、编辑、... 建议的副本对我没有帮助,因为 a) 我正在寻找受欢迎程度的衡量标准。其他问题的答案只是说明无法获得页面的观察者数量,这对我来说很好。 b) 那里没有给我每个页面的页面浏览量(或任何其他指标)的答案。
好的,我终于完成了。这是我所做的:
我找到 http://dumps.wikimedia.org/other/pagecounts-ez/ which provides page views per month. This seems promising but they don't mention the pageid so what I'm doing is getting a list of all articles from http://dumps.wikimedia.org/enwiki/latest/,创建一个映射名称->pageid,然后解析 pagecount 转储。这大约需要 30 分钟,以下是一些统计数据:
页数文件中 68% 的文章在最新转储中不存在。这可能是由于某些用户 linking,例如 Misfits_(TV_series) 而其他 link 到 Misfits_(tv_series) 甚至 Misfits_%28TV_series%29...我没有理会那些因为我的程序已经花了足够长的时间 运行.
前 3 页是:
2.1。首页浏览量 6.39 亿(上个月)
2.2。具有 850 万次浏览量的恶意软件
2.3。猎鹰 9 v1.1 浏览量 470 万(酷!)
我做了一个特定浏览量的页面数直方图,这里是:
我还绘制了当我忽略低于特定查看次数的所有文章时必须处理的页数。这是: