从维基百科阅读 pageviews.gz 个文件

Read the pageviews.gz files from wikipedia

我写了一个脚本来从维基百科下载 pagviewsXXXXX.gz 文件。太好了。 当我解压缩文件时,内容难以辨认。有人知道如何阅读 pagwviews.gz 文件的内容吗?如果有一些 api 或关于如何做的任何想法?

提前致谢

不知道你用什么软件解压.gz文件。我刚刚在 64 位 Win10 机器上成功使用了 7-zip。完成后,我发现 https://dumps.wikimedia.org/other/pagecounts-raw/ 提供了对未压缩文件中行的描述。

de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820

来自 de(德语)维基百科,第 'Stadio_Arena_Garibaldi_-_Romeo_Anconetani' 页,在 gzip 文件涵盖的一小时内被引用一次,服务器返回 11,820 字节。

这一行看起来像乱码。

ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742

然而,前两个字符表示它代表对维基百科阿拉伯语版本的引用。 “%”项是非 ascii 字符。