将每个系统设置为数据节点并从每个系统中获取数据
Set each system as data node and get the data from each
如果hadoop和HDFS我是初学者
- 局域网中连接了5台服务器
- 每个服务器都有不同数据的日志文件
问题是这个
- 我需要用 Spark 处理所有的日志文件。
- 我需要加载所有日志文件以启动和处理。
- 我有一个想法拥有 hdfs 集群,就像每个服务器作为从属(每个
一个作为奴隶)并请求每个奴隶并获取日志文件和
加载火花。
我说的对吗,有没有更好的方法或更好的技术。
假设有 100 个日志文件,每个节点在 本地文件系统 中有 20 个。你的问题是我应该加载所有 100 个以产生火花吗?
在 运行 spark 之前,您需要将文件 从本地文件系统加载到 HDFS (如果文件位于不同的节点中,您可以使用 SSH 或其他方式加载它们).然后,执行指定 100 个日志文件的 HDFS 位置的 spark 程序。
典型场景步骤:
假设5台服务器有100个日志文件(每台20个),5台服务器是一个hadoop集群:
第 1 步:将文件加载到 HDFS。从所有 5 个服务器传播 hdfs load 命令。此时,当您尝试 hdfs dfs -ls /path/to/logfiles
时,您应该拥有所有 100 个文件
第 2 步:执行指向此 /path/to/logfiles 位置的 Spark 程序。
希望对您有所帮助。
如果hadoop和HDFS我是初学者
- 局域网中连接了5台服务器
- 每个服务器都有不同数据的日志文件
问题是这个
- 我需要用 Spark 处理所有的日志文件。
- 我需要加载所有日志文件以启动和处理。
- 我有一个想法拥有 hdfs 集群,就像每个服务器作为从属(每个 一个作为奴隶)并请求每个奴隶并获取日志文件和 加载火花。
我说的对吗,有没有更好的方法或更好的技术。
假设有 100 个日志文件,每个节点在 本地文件系统 中有 20 个。你的问题是我应该加载所有 100 个以产生火花吗?
在 运行 spark 之前,您需要将文件 从本地文件系统加载到 HDFS (如果文件位于不同的节点中,您可以使用 SSH 或其他方式加载它们).然后,执行指定 100 个日志文件的 HDFS 位置的 spark 程序。
典型场景步骤: 假设5台服务器有100个日志文件(每台20个),5台服务器是一个hadoop集群:
第 1 步:将文件加载到 HDFS。从所有 5 个服务器传播 hdfs load 命令。此时,当您尝试 hdfs dfs -ls /path/to/logfiles
时,您应该拥有所有 100 个文件第 2 步:执行指向此 /path/to/logfiles 位置的 Spark 程序。
希望对您有所帮助。