BigQuery：从 Coldline Cloud Storage 查询 parquet 文件作为外部数据源的定价 class

BigQuery: Pricing for Querying parquet files, as external data sources, from the Coldline Cloud Storage class

BigQuery 允许查询各种存储类、including Coldline 中的外部表。从 Coldline 访问数据有一个数据 retrieval fee.

Parquet 格式文件提供列式存储。当通过 BigQuery 从 Coldline GCS 访问 Parquet 格式文件时，数据检索成本是基于查询数据的列还是基于整个 Parquet 文件？

为了首先解决问题的简单部分，BigQuery charges 基于逻辑（未压缩）大小读取所有需要读取的文件的列。如果您在具有 1M 行的文件中读取整数字段 "foo"，您将被收取 8MB（每个 int 8 字节 * 行数）的费用。

如果由于 Hive 分区 p运行ing 或 Parquet header 包含表明查询不需要该文件的信息而可以跳过文件，则不收费用于扫描该文件。

您问题的另一部分是关于 Coldline 的读取计费。如果您在 BigQuery 中从 coldline 读取数据，则无需为 coldline 读取付费。也就是说，请不要指望这种情况会长期存在。 Google 内部正在讨论如何关闭这个漏洞。

将来，当冷线读取收费时，很可能会如下所示：运行查询所需的物理字节总量将被计费。

Parquet 文件有 header 包含文件元数据，然后是包含自己的元数据和列的块。要读取镶木地板文件，您需要读取文件 header、块 header 和列。根据过滤器的不同，某些块可能是可跳过的，在这种情况下，您不会为此付费。另一方面，一些查询可能需要多次读取同一个文件（例如 self-join）。物理读取大小将是每次读取文件时读取的所有字节的总和。

BigQuery：从 Coldline Cloud Storage 查询 parquet 文件作为外部数据源的定价 class

BigQuery: Pricing for Querying parquet files, as external data sources, from the Coldline Cloud Storage class

google-cloud-storage

google-bigquery

parquet