Azure Data Lake 中压缩编解码器的影响
Impact of compression codec in Azure Data Lake
很明显,有据可查的是,拆分 zip 文件的能力对 Hadoop 中作业的性能和并行化有很大影响。
但是 Azure 是基于 Hadoop 构建的,我在 Microsoft 文档中找不到任何地方都没有提到这种影响。
这不是 ADL 的问题吗?
例如,GZipping 大文件现在是一种可接受的方法,还是我会运行陷入同样的问题,即由于选择了压缩编解码器而无法并行化我的作业?
谢谢
无法从随机位置开始读取 GZip 文件。有必要始终从头开始阅读。
然后,如果你有一个大的 GZip(或其他不可分割的压缩格式),你不能 read/process blocks 并行处理,结束仅在一台机器上按顺序处理所有文件。
Hadoop(和其他大数据替代方案)的主要思想依赖于在不同机器上并行处理数据。大的 GZip 文件与此方法不匹配。
有些数据格式允许使用 Gzip 压缩 数据页 并保持文件可拆分(每个页面可以在不同的文件中处理)机器,但每个 GZip 块继续需要只在一台机器上处理)像 Parquet。
请注意,Azure Data Lake Analytics 不是 基于 Hadoop。
RojoSam 是正确的,GZip 是一种不适合并行化的压缩格式。
U-SQL 会自动识别 .gz 文件并解压缩它们。但是,压缩文件的大小有 4GB 的限制(因为我们无法拆分和并行处理它),我们建议您使用 100MB 到 1GB 范围内的文件。
我们正在努力添加 Parquet 支持。如果您需要其他压缩格式,例如 BZip:请在 http://aka.ms/adlfeedback.
提交请求
很明显,有据可查的是,拆分 zip 文件的能力对 Hadoop 中作业的性能和并行化有很大影响。
但是 Azure 是基于 Hadoop 构建的,我在 Microsoft 文档中找不到任何地方都没有提到这种影响。
这不是 ADL 的问题吗?
例如,GZipping 大文件现在是一种可接受的方法,还是我会运行陷入同样的问题,即由于选择了压缩编解码器而无法并行化我的作业?
谢谢
无法从随机位置开始读取 GZip 文件。有必要始终从头开始阅读。
然后,如果你有一个大的 GZip(或其他不可分割的压缩格式),你不能 read/process blocks 并行处理,结束仅在一台机器上按顺序处理所有文件。
Hadoop(和其他大数据替代方案)的主要思想依赖于在不同机器上并行处理数据。大的 GZip 文件与此方法不匹配。
有些数据格式允许使用 Gzip 压缩 数据页 并保持文件可拆分(每个页面可以在不同的文件中处理)机器,但每个 GZip 块继续需要只在一台机器上处理)像 Parquet。
请注意,Azure Data Lake Analytics 不是 基于 Hadoop。
RojoSam 是正确的,GZip 是一种不适合并行化的压缩格式。
U-SQL 会自动识别 .gz 文件并解压缩它们。但是,压缩文件的大小有 4GB 的限制(因为我们无法拆分和并行处理它),我们建议您使用 100MB 到 1GB 范围内的文件。
我们正在努力添加 Parquet 支持。如果您需要其他压缩格式,例如 BZip:请在 http://aka.ms/adlfeedback.
提交请求