Python 3.7.4 -> 如何保持低内存使用率?
Python 3.7.4 -> How to keep memory usage low?
以下代码在给定数据库上检索和创建 uniqueCards 并为其编制索引。
for x in range(2010,2015):
for y in range(1,13):
index = str(x)+"-"+str("0"+str(y) if y<10 else y)
url = urlBase.replace("INDEX",index)
response = requests.post(url,data=query,auth=(user,pwd))
if response.status_code != 200:
continue
#this is a big json, around 4MB each
parsedJson = json.loads(response.content)["aggregations"]["uniqCards"]["buckets"]
for z in parsedJson:
valKey = 0
ind = 0
header = str(z["key"])[:8]
if header in headers:
ind = headers.index(header)
else:
headers.append(header)
valKey = int(str(ind)+str(z["key"])[8:])
creditCards.append(CreditCard(valKey,x*100+y))
CreditCard
对象,唯一在范围内存活下来的对象,每个大约 64 字节长。
在 运行 之后,这段代码应该映射大约 1000 万张卡片。这将转化为 6.4 亿字节,或大约 640 兆字节。
问题是在这个操作的中途,内存消耗达到了大约 3GB...
我的第一个猜测是,出于某种原因,GC 没有收集 parsedJson
。我应该怎么做才能控制内存消耗?我可以手动处理该对象吗?
编辑 1:
信用卡定义为
class CreditCard:
number = 0
knownSince = 0
def __init__(self, num, date):
self.number=num
self.knownSince=date
编辑2:
当我在 creditCards.__len__()
上达到 350 万张卡片时,sys.getsizeof(creditCards)
报告 31MB,但该过程消耗了 2GB!
问题是json.load
。加载 4MB 会导致内存跳跃 5-8 倍。
编辑:
我设法使用 JSON 的自定义映射器解决了这个问题:
def object_decoder(obj):
if obj.__contains__('key'):
return CreditCard(obj['key'],xy)
return obj
现在内存增长缓慢,我已经能够使用大约 2GB 的内存解析整个集合
以下代码在给定数据库上检索和创建 uniqueCards 并为其编制索引。
for x in range(2010,2015):
for y in range(1,13):
index = str(x)+"-"+str("0"+str(y) if y<10 else y)
url = urlBase.replace("INDEX",index)
response = requests.post(url,data=query,auth=(user,pwd))
if response.status_code != 200:
continue
#this is a big json, around 4MB each
parsedJson = json.loads(response.content)["aggregations"]["uniqCards"]["buckets"]
for z in parsedJson:
valKey = 0
ind = 0
header = str(z["key"])[:8]
if header in headers:
ind = headers.index(header)
else:
headers.append(header)
valKey = int(str(ind)+str(z["key"])[8:])
creditCards.append(CreditCard(valKey,x*100+y))
CreditCard
对象,唯一在范围内存活下来的对象,每个大约 64 字节长。
在 运行 之后,这段代码应该映射大约 1000 万张卡片。这将转化为 6.4 亿字节,或大约 640 兆字节。
问题是在这个操作的中途,内存消耗达到了大约 3GB...
我的第一个猜测是,出于某种原因,GC 没有收集 parsedJson
。我应该怎么做才能控制内存消耗?我可以手动处理该对象吗?
编辑 1:
信用卡定义为
class CreditCard:
number = 0
knownSince = 0
def __init__(self, num, date):
self.number=num
self.knownSince=date
编辑2:
当我在 creditCards.__len__()
上达到 350 万张卡片时,sys.getsizeof(creditCards)
报告 31MB,但该过程消耗了 2GB!
问题是json.load
。加载 4MB 会导致内存跳跃 5-8 倍。
编辑:
我设法使用 JSON 的自定义映射器解决了这个问题:
def object_decoder(obj):
if obj.__contains__('key'):
return CreditCard(obj['key'],xy)
return obj
现在内存增长缓慢,我已经能够使用大约 2GB 的内存解析整个集合