将每个系统设置为数据节点并从每个系统中获取数据

Set each system as data node and get the data from each

如果hadoop和HDFS我是初学者

问题是这个

我说的对吗,有没有更好的方法或更好的技术。

假设有 100 个日志文件,每个节点在 本地文件系统 中有 20 个。你的问题是我应该加载所有 100 个以产生火花吗?

在 运行 spark 之前,您需要将文件 从本地文件系统加载到 HDFS (如果文件位于不同的节点中,您可以使用 SSH 或其他方式加载它们).然后,执行指定 100 个日志文件的 HDFS 位置的 spark 程序。

典型场景步骤: 假设5台服务器有100个日志文件(每台20个),5台服务器是一个hadoop集群:

第 1 步:将文件加载到 HDFS。从所有 5 个服务器传播 hdfs load 命令。此时,当您尝试 hdfs dfs -ls /path/to/logfiles

时,您应该拥有所有 100 个文件

第 2 步:执行指向此 /path/to/logfiles 位置的 Spark 程序。

希望对您有所帮助。