从 GCP 存储桶下载 6.5m 对象的更快方法
Faster method to download 6.5m objects from GCP bucket
我正在寻找一种更快 的方法来从存储桶中下载大量对象(在我的例子中是 650 万个)。平均对象大小为 2kb(这是一个 JSON 文件)。我使用的方法是 gsutil -m cp -r gs://<bucket>/<folder> .
,1M 对象需要 14 个小时。
连续 7 天在我的笔记本电脑上 运行 这是不可行的。有什么想法吗?
PS:我不需要将它们放在单独的 JSON 文件中。我正在考虑创建一个脚本,从存储桶中提取一个文件,向 CSV 添加一行,然后删除该文件。
尝试将文件下载到 VM,将文件压缩到单个 tgz(或 bz2 或 xz),上传回存储桶,然后下载 tgz。
云 shell 应该也可以。
我正在寻找一种更快 的方法来从存储桶中下载大量对象(在我的例子中是 650 万个)。平均对象大小为 2kb(这是一个 JSON 文件)。我使用的方法是 gsutil -m cp -r gs://<bucket>/<folder> .
,1M 对象需要 14 个小时。
连续 7 天在我的笔记本电脑上 运行 这是不可行的。有什么想法吗?
PS:我不需要将它们放在单独的 JSON 文件中。我正在考虑创建一个脚本,从存储桶中提取一个文件,向 CSV 添加一行,然后删除该文件。
尝试将文件下载到 VM,将文件压缩到单个 tgz(或 bz2 或 xz),上传回存储桶,然后下载 tgz。
云 shell 应该也可以。