是否有一种简单/快速的方法可以将镶木地板文件从我的 Google 存储桶加载到我的 Google 云笔记本中?
Is there an easy / quick method to load a parquet file from my Google Bucket into my Google Cloud Notebook?
我刚刚将一个镶木地板文件上传到我的存储桶中。我用 jupyter notebook 启动了一个新实例。到目前为止,我可以从我的存储桶中读取文件名:
!pip install google-cloud-storage
client = storage.Client()
bucket = client.get_bucket("mybucket")
filename = list(bucket.list_blobs())
for name in filename:
print(name.name)
a = pd.read_parquet("gcs://mybucket/myfile.gzip")
当它到达最后一行时,它只是挂起...这是一个 2GB 的文件,因此加载时间应该不会那么长,它已经挂起几个小时了。
尝试更正文件的文件格式。来自 example doc:
df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})
df.to_parquet('df.parquet.gzip', compression='gzip')
pd.read_parquet('df.parquet.gzip')
col1 col2
0 1 3
1 2 4
注意示例中的文件名 df.parquet.gzip。我建议你修复你的文件并遵循格式。
示例:
gs://mybucket/myfile.parquet.gzip
我刚刚将一个镶木地板文件上传到我的存储桶中。我用 jupyter notebook 启动了一个新实例。到目前为止,我可以从我的存储桶中读取文件名:
!pip install google-cloud-storage
client = storage.Client()
bucket = client.get_bucket("mybucket")
filename = list(bucket.list_blobs())
for name in filename:
print(name.name)
a = pd.read_parquet("gcs://mybucket/myfile.gzip")
当它到达最后一行时,它只是挂起...这是一个 2GB 的文件,因此加载时间应该不会那么长,它已经挂起几个小时了。
尝试更正文件的文件格式。来自 example doc:
df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})
df.to_parquet('df.parquet.gzip', compression='gzip')
pd.read_parquet('df.parquet.gzip')
col1 col2
0 1 3
1 2 4
注意示例中的文件名 df.parquet.gzip。我建议你修复你的文件并遵循格式。
示例:
gs://mybucket/myfile.parquet.gzip