Dataflow 是否使用 Google Cloud Storage 的 gzip 转码?
Is Dataflow making use of Google Cloud Storage's gzip transcoding?
我正在尝试处理 JSON 个文件(10 GB uncompressed/2 GB 压缩)并且我想优化我的管道。
根据 official docs Google 云存储 (GCS) 可以选择对 gzip 文件进行转码,这意味着应用程序可以在正确标记它们时解压缩它们。
Google Cloud Dataflow (GCDF) 在处理未压缩文件时具有更好的并行性,所以我想知道设置 是否对性能有积极影响?
由于我的输入文件相对较大,解压缩它们以便 Dataflow 将它们拆分成更小的块是否有意义?
您不应使用此元标记。这很危险,因为 GCS 会错误地报告文件的大小(例如,报告压缩后的大小,但 dataflow/beam 会读取未压缩的数据)。
无论如何,未压缩文件的拆分依赖于从文件的不同部分并行读取,如果文件最初是压缩的,这是不可能的。
我正在尝试处理 JSON 个文件(10 GB uncompressed/2 GB 压缩)并且我想优化我的管道。
根据 official docs Google 云存储 (GCS) 可以选择对 gzip 文件进行转码,这意味着应用程序可以在正确标记它们时解压缩它们。
Google Cloud Dataflow (GCDF) 在处理未压缩文件时具有更好的并行性,所以我想知道设置
由于我的输入文件相对较大,解压缩它们以便 Dataflow 将它们拆分成更小的块是否有意义?
您不应使用此元标记。这很危险,因为 GCS 会错误地报告文件的大小(例如,报告压缩后的大小,但 dataflow/beam 会读取未压缩的数据)。
无论如何,未压缩文件的拆分依赖于从文件的不同部分并行读取,如果文件最初是压缩的,这是不可能的。