Pig 以本地模式处理大文件
Pig in local mode on a large file
我是 运行 本地模式的猪,处理一个 54 GB 的大文件。我观察到它按顺序产生了很多地图任务。我期望的是,也许每个地图任务都在读取 64 MB 的行。所以如果我想优化这个并且可能读取 1GB 等效行数,
a.) 可能吗?(也许通过增加拆分大小)
b.) 如何?
c.) 有没有其他优化方法。
感谢
您可以通过设置增加拆分大小:
SET mapred.max.split.size #bytes
默认块大小为 64MB。
试试这个来增加块大小:
打开 hdfs-site.xml 文件。这个文件一般在hadoop安装的conf/文件夹下 directory.Set 下面属性 in hdfs-site.xml:
-property-
-name-dfs.block.size-name-
-value-134217728-value-
-description-Block size-description-
-property-
我是 运行 本地模式的猪,处理一个 54 GB 的大文件。我观察到它按顺序产生了很多地图任务。我期望的是,也许每个地图任务都在读取 64 MB 的行。所以如果我想优化这个并且可能读取 1GB 等效行数,
a.) 可能吗?(也许通过增加拆分大小) b.) 如何? c.) 有没有其他优化方法。
感谢
您可以通过设置增加拆分大小:
SET mapred.max.split.size #bytes
默认块大小为 64MB。 试试这个来增加块大小:
打开 hdfs-site.xml 文件。这个文件一般在hadoop安装的conf/文件夹下 directory.Set 下面属性 in hdfs-site.xml:
-property-
-name-dfs.block.size-name-
-value-134217728-value-
-description-Block size-description-
-property-