来自 GCS 的 BQ Table 的大小

Size of a BQ Table from GCS

有没有一种方法可以根据 Cloud Storage 数据的大小来计算 BigQuery table 的最终大小?

例如,一个80GB的桶,它被转换成一个100GB的table。

我想知道 BQ 中的 Cloud Storage 存储桶是否小于 100GB。

谢谢!

你的问题很难回答。它会随着 GCS 中文件中数据的存储方式而变化。如果您有 80GB 的数据并且该数据是 CSV 格式,则 BQ 大小将是一个值,但如果它存储在 JSON 中,那么它将是另一个值,如果它的 AVRO 是另一个值,依此类推。它还将取决于您的列的架构类型以及您拥有的列数。 Google 记录了每种数据类型需要多少存储空间(在 BQ 中):

BQ Storage Pricing 上的文档中,table 显示了存储不同列类型所需的数据量。

如果我需要知道从数据文件中得到的 BQ 大小,我会确定每个结果列,每个列的数据大小(平均值),这将给我一个行的近似大小BQ table。从那里,我会乘以我的源文件中的行数。

您可能想尝试的另一种方法是一次加载一些现有文件,然后查看“表观”乘数是多少。从理论上讲,对于给定的文件集/table 对,这可能是一个足够好的指示。