Hadoop 和 Mapreduce 配置

Question

关于 Hadoop 架构我有几个问题

在Mapreduce中我们可以动态修改块大小和映射器的数量，如果可以我们怎么做？
如何在 HDFS 中创建块。例如，hadoop 框架安装在 redhat linux 机器上。 linux 文件系统的默认块大小为 4k。 HDFS 块是 4k 块上的逻辑包装器还是如何创建块。它也是并行的还是顺序的？因为例如一个文件只有 32 MB，因为块大小是 64 MB。剩余的 32 Mb 是否可重复使用？
我想查看刚刚复制到 HDFS 的特定文件的所有块的位置（数据节点）。是否有任何命令可以从一个位置执行此操作？
如果我将视频文件移动到 HDFS，如何为该视频文件分配块

Answer 1

In Mapreduce can we dynamically modify the block size and no of mappers?

我假设您正在寻找 HDFS 文件系统。

HDFS是分布式存储系统，Mapreduce是分布式处理框架。

HDFS 块大小可以通过 hdfs-site.xml

更改

查看各种 HDFS 配置的文档 page。

dfs.blocksize

134217728（默认值）

新文件的默认块大小，以字节为单位。您可以使用以下后缀（不区分大小写）：k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa) 指定大小（如 128k、512m、1g 等），或提供完整的字节大小 （如 134217728 为 128 MB）.

相关 SE 问题：

How to set data block size in Hadoop ? Is it advantage to change it?

Hows does the block gets created in HDFS. For example the hadoop framework is installed on say redhat linux machine. The default block size of linux filesystem is 4k. Is the HDFS block a logical wrapper on the 4k blocks or how does a block gets created. also is it parallel or sequential? because for example a file has only 32 MB since the block size is 64 MB. Is the remaining 32 Mb reusable?

剩余的 32 MB 可重复使用。

看看这个关于 HDFS 块写入操作的 SE 问题：

Hadoop file write

I want to see the location(data node) of all the blocks of particular file I just copied to the HDFS. Is there any command to do that from a single location?

hadoop fsck /path/to/file -files -blocks

Hadoop 和 Mapreduce 配置

Hadoop and Mapreduce configuration

hadoop

mapreduce

hdfs