从维基百科阅读 pageviews.gz 个文件
Read the pageviews.gz files from wikipedia
我写了一个脚本来从维基百科下载 pagviewsXXXXX.gz 文件。太好了。
当我解压缩文件时,内容难以辨认。有人知道如何阅读 pagwviews.gz 文件的内容吗?如果有一些 api 或关于如何做的任何想法?
提前致谢
不知道你用什么软件解压.gz文件。我刚刚在 64 位 Win10 机器上成功使用了 7-zip。完成后,我发现 https://dumps.wikimedia.org/other/pagecounts-raw/ 提供了对未压缩文件中行的描述。
行
de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820
来自 de(德语)维基百科,第 'Stadio_Arena_Garibaldi_-_Romeo_Anconetani' 页,在 gzip 文件涵盖的一小时内被引用一次,服务器返回 11,820 字节。
这一行看起来像乱码。
ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742
然而,前两个字符表示它代表对维基百科阿拉伯语版本的引用。 “%”项是非 ascii 字符。
我写了一个脚本来从维基百科下载 pagviewsXXXXX.gz 文件。太好了。 当我解压缩文件时,内容难以辨认。有人知道如何阅读 pagwviews.gz 文件的内容吗?如果有一些 api 或关于如何做的任何想法?
提前致谢
不知道你用什么软件解压.gz文件。我刚刚在 64 位 Win10 机器上成功使用了 7-zip。完成后,我发现 https://dumps.wikimedia.org/other/pagecounts-raw/ 提供了对未压缩文件中行的描述。
行
de Stadio_Arena_Garibaldi_-_Romeo_Anconetani 1 11820
来自 de(德语)维基百科,第 'Stadio_Arena_Garibaldi_-_Romeo_Anconetani' 页,在 gzip 文件涵盖的一小时内被引用一次,服务器返回 11,820 字节。
这一行看起来像乱码。
ar %D9%85%D8%B7%D9%8A%D8%A7%D9%81%D9%8A%D8%A9 1 16742
然而,前两个字符表示它代表对维基百科阿拉伯语版本的引用。 “%”项是非 ascii 字符。