如何迭代和解压 python 中的“.gz”文件？

Question

我有几个子文件夹，每个子文件夹都包含压缩的 twitter 文件。我希望 python 遍历这些子文件夹并将它们变成常规的 JSON 文件。我有 300 多个子文件夹，每个子文件夹包含大约 1000 个或更多这些压缩文件。这些文件的示例被命名为： 00_activities.json.gz%3FAWSAccessKeyId=AKIAJADH5KHBJMUZOPEA&Expires=1404665927&Signature=%2BdCn%252Ffn%2BFfRQhknWWcH%2BtnwlSfk%3D"

提前致谢

我试过下面的代码，只是想看看我是否可以提取其中一个文件，但是 none 成功了。

import zipfile
zip_ref = zipfile.ZipFile('E:/echoverse/Subdivided Tweets/Subdivided Tweets/Tweets-0', 'r')
zip_ref.extractall('E:/echoverse/Subdivided Tweets/Subdivided Tweets/Tweets-0/00_activities.json.gz%3FAWSAccessKeyId=AKIAJADH5KHBJMUZOPEA&Expires=1404665927&Signature=%2BdCn%252Ffn%2BFfRQhknWWcH%2BtnwlSfk%3D')
zip_ref.close()

我也试过：

import tarfile
tar = tarfile.open('E:/echoverse/Subdivided Tweets/Subdivided Tweets/Tweets-0/00_activities.json.gz%3FAWSAccessKeyId=AKIAJADH5KHBJMUZOPEA&Expires=1404665927&Signature=%2BdCn%252Ffn%2BFfRQhknWWcH%2BtnwlSfk%3D')
tar.extractall()
tar.close

这是我的第三次尝试（没有成功）：

import gzip
import json
with gzip.open('E:/echoverse/Subdivided Tweets/Subdivided Tweets/Tweets-0/00_activities.json.gz%3FAWSAccessKeyId=AKIAJADH5KHBJMUZOPEA&Expires=1404665927&Signature=%2BdCn%252Ffn%2BFfRQhknWWcH%2BtnwlSfk%3D'
, 'rb') as f:
    d = json.loads(f.read().decode("utf-8"))

stackover flow 上还有另一个非常相似的威胁，但我的问题不同，因为我的压缩文件最初是 JSON，当我使用最后一种方法时，我得到了这个错误：发生异常：json.decoder.JSONDecodeError 期望值：第 1 行第 1 列（字符 0）

Answer 1

回答问题的简单脚本：它遍历，检查文件 (fname) 是否是 gzip（通过幻数，因为我愤世嫉俗）并解压缩它。

import json
import gzip
import binascii
import os


def is_gz_file(filepath):
    with open(filepath, 'rb') as test_f:
        return binascii.hexlify(test_f.read(2)) == b'1f8b'


rootDir = '.'
for dirName, subdirList, fileList in os.walk(rootDir):
    for fname in fileList:
        filepath = os.path.join(dirName,fname)
        if is_gz_file(filepath):
            f = gzip.open(filepath, 'rb')
            json_content = json.loads(f.read())
            print(json_content)

已测试 有效。

如何迭代和解压 python 中的“.gz”文件？

How to iterate through and unzip ".gz" files in python?

python

json

gzip

traversal

我也试过：

这是我的第三次尝试（没有成功）：