从维基百科阅读 pageviews.gz 个文件

Question

我写了一个脚本来从维基百科下载 pagviewsXXXXX.gz 文件。太好了。当我解压缩文件时，内容难以辨认。有人知道如何阅读 pagwviews.gz 文件的内容吗？如果有一些 api 或关于如何做的任何想法？

提前致谢

Answer 1

不知道你用什么软件解压.gz文件。我刚刚在 64 位 Win10 机器上成功使用了 7-zip。完成后，我发现 https://dumps.wikimedia.org/other/pagecounts-raw/ 提供了对未压缩文件中行的描述。

行

de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820

来自 de（德语）维基百科，第 'Stadio_Arena_Garibaldi_-_Romeo_Anconetani' 页，在 gzip 文件涵盖的一小时内被引用一次，服务器返回 11,820 字节。

这一行看起来像乱码。

ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742

然而，前两个字符表示它代表对维基百科阿拉伯语版本的引用。 “%”项是非 ascii 字符。

Read the pageviews.gz files from wikipedia