Azure Data Lake 中压缩编解码器的影响

Impact of compression codec in Azure Data Lake

很明显，有据可查的是，拆分 zip 文件的能力对 Hadoop 中作业的性能和并行化有很大影响。

但是 Azure 是基于 Hadoop 构建的，我在 Microsoft 文档中找不到任何地方都没有提到这种影响。

这不是 ADL 的问题吗？

例如，GZipping 大文件现在是一种可接受的方法，还是我会运行陷入同样的问题，即由于选择了压缩编解码器而无法并行化我的作业？

谢谢

无法从随机位置开始读取 GZip 文件。有必要始终从头开始阅读。

然后，如果你有一个大的 GZip（或其他不可分割的压缩格式），你不能 read/process blocks 并行处理，结束仅在一台机器上按顺序处理所有文件。

Hadoop（和其他大数据替代方案）的主要思想依赖于在不同机器上并行处理数据。大的 GZip 文件与此方法不匹配。

有些数据格式允许使用 Gzip 压缩 数据页 并保持文件可拆分（每个页面可以在不同的文件中处理）机器，但每个 GZip 块继续需要只在一台机器上处理）像 Parquet。

请注意，Azure Data Lake Analytics 不是基于 Hadoop。

RojoSam 是正确的，GZip 是一种不适合并行化的压缩格式。

U-SQL 会自动识别 .gz 文件并解压缩它们。但是，压缩文件的大小有 4GB 的限制（因为我们无法拆分和并行处理它），我们建议您使用 100MB 到 1GB 范围内的文件。

我们正在努力添加 Parquet 支持。如果您需要其他压缩格式，例如 BZip：请在 http://aka.ms/adlfeedback.

提交请求