BigQuery:从 Coldline Cloud Storage 查询 parquet 文件作为外部数据源的定价 class
BigQuery: Pricing for Querying parquet files, as external data sources, from the Coldline Cloud Storage class
BigQuery 允许查询各种存储 类、including Coldline 中的外部表。
从 Coldline 访问数据有一个数据 retrieval fee.
Parquet 格式文件提供列式存储。当通过 BigQuery 从 Coldline GCS 访问 Parquet 格式文件时,数据检索成本是基于查询数据的列还是基于整个 Parquet 文件?
为了首先解决问题的简单部分,BigQuery charges 基于逻辑(未压缩)大小读取所有需要读取的文件的列。如果您在具有 1M 行的文件中读取整数字段 "foo",您将被收取 8MB(每个 int 8 字节 * 行数)的费用。
如果由于 Hive 分区 p运行ing 或 Parquet header 包含表明查询不需要该文件的信息而可以跳过文件,则不收费用于扫描该文件。
您问题的另一部分是关于 Coldline 的读取计费。如果您在 BigQuery 中从 coldline 读取数据,则无需为 coldline 读取付费。也就是说,请不要指望这种情况会长期存在。 Google 内部正在讨论如何关闭这个漏洞。
将来,当冷线读取收费时,很可能会如下所示:运行 查询所需的物理字节总量将被计费。
Parquet 文件有 header 包含文件元数据,然后是包含自己的元数据和列的块。要读取镶木地板文件,您需要读取文件 header、块 header 和列。根据过滤器的不同,某些块可能是可跳过的,在这种情况下,您不会为此付费。另一方面,一些查询可能需要多次读取同一个文件(例如 self-join)。物理读取大小将是每次读取文件时读取的所有字节的总和。
BigQuery 允许查询各种存储 类、including Coldline 中的外部表。 从 Coldline 访问数据有一个数据 retrieval fee.
Parquet 格式文件提供列式存储。当通过 BigQuery 从 Coldline GCS 访问 Parquet 格式文件时,数据检索成本是基于查询数据的列还是基于整个 Parquet 文件?
为了首先解决问题的简单部分,BigQuery charges 基于逻辑(未压缩)大小读取所有需要读取的文件的列。如果您在具有 1M 行的文件中读取整数字段 "foo",您将被收取 8MB(每个 int 8 字节 * 行数)的费用。
如果由于 Hive 分区 p运行ing 或 Parquet header 包含表明查询不需要该文件的信息而可以跳过文件,则不收费用于扫描该文件。
您问题的另一部分是关于 Coldline 的读取计费。如果您在 BigQuery 中从 coldline 读取数据,则无需为 coldline 读取付费。也就是说,请不要指望这种情况会长期存在。 Google 内部正在讨论如何关闭这个漏洞。
将来,当冷线读取收费时,很可能会如下所示:运行 查询所需的物理字节总量将被计费。
Parquet 文件有 header 包含文件元数据,然后是包含自己的元数据和列的块。要读取镶木地板文件,您需要读取文件 header、块 header 和列。根据过滤器的不同,某些块可能是可跳过的,在这种情况下,您不会为此付费。另一方面,一些查询可能需要多次读取同一个文件(例如 self-join)。物理读取大小将是每次读取文件时读取的所有字节的总和。