如何使用 Boto3 从 Amazon S3 读取大型 JSON 文件

Question

我正在尝试从 Amazon S3 读取一个 JSON 文件，它的文件大小约为 2GB。当我使用方法 .read() 时，它给了我 MemoryError。

这个问题有什么解决办法吗？任何帮助都可以，非常感谢！

Answer 1

我刚刚解决了这个问题。这是代码。希望对以后的使用有所帮助！

s3 = boto3.client('s3', aws_access_key_id=<aws_access_key_id>, aws_secret_access_key=<aws_secret_access_key>)
obj = s3.get_object(Bucket='bucket_name', Key='key')
data = (line.decode('utf-8') for line in obj['Body'].iter_lines())
    for row in file_content:
        print(json.loads(row))

Answer 2

只需遍历对象。

s3 = boto3.client('s3', aws_access_key_id=<aws_access_key_id>, aws_secret_access_key=<aws_secret_access_key>)
fileObj = s3.get_object(Bucket='bucket_name', Key='key')
for row in fileObj["body"]:
    line = row.decode('utf-8')
    print(json.loads(line))

Answer 3

所以，我找到了一种对我有效的方法。我有 1.60 GB 的文件，需要加载以进行处理。

s3 = boto3.client('s3', aws_access_key_id=<aws_access_key_id>, aws_secret_access_key=<aws_secret_access_key>)

# Now we collected data in the form of bytes array.
data_in_bytes = s3.Object(bucket_name, filename).get()['Body'].read()

#Decode it in 'utf-8' format
decoded_data = data_in_bytes.decode('utf-8')

#I used io module for creating a StringIO object.
stringio_data = io.StringIO(decoded_data)

#Now just read the StringIO obj line by line.
data = stringio_data.readlines()

#Its time to use json module now.
json_data = list(map(json.loads, data))

所以json_data就是文件的内容。我知道有很多变量操作，但它对我有用。

Answer 4

import json
import boto3



def lambda_handler(event, context):

    s3 = boto3.resource('s3')
    #reading all s3 bucket
    for bucket in s3.buckets.all():
     print(bucket.name)

    #json_data = s3.Object("vkhan-s3-bucket, "config/sandbox/config.json").get()['Body'].read()

json_data=json.loads(s3.Object("vkhan-s3-bucket", "config/sandbox/config.json").get()['Body'].read().decode())

    print(json_data)



    return {
        'statusCode': 200,
        'body': json.dumps(json_data)
    }

如何使用 Boto3 从 Amazon S3 读取大型 JSON 文件

How to read large JSON file from Amazon S3 using Boto3

json

etl

amazon-s3

boto3