将每个系统设置为数据节点并从每个系统中获取数据

Set each system as data node and get the data from each

如果hadoop和HDFS我是初学者

问题是这个

我说的对吗，有没有更好的方法或更好的技术。

假设有 100 个日志文件，每个节点在 本地文件系统 中有 20 个。你的问题是我应该加载所有 100 个以产生火花吗？

在运行 spark 之前，您需要将文件 从本地文件系统加载到 HDFS （如果文件位于不同的节点中，您可以使用 SSH 或其他方式加载它们).然后，执行指定 100 个日志文件的 HDFS 位置的 spark 程序。

典型场景步骤：假设5台服务器有100个日志文件（每台20个），5台服务器是一个hadoop集群：

第 1 步：将文件加载到 HDFS。从所有 5 个服务器传播 hdfs load 命令。此时，当您尝试 hdfs dfs -ls /path/to/logfiles

时，您应该拥有所有 100 个文件

第 2 步：执行指向此 /path/to/logfiles 位置的 Spark 程序。

希望对您有所帮助。