使用 Spark 或 caseesndra 查询日志文件的最佳方式
Best way to query the log files, with Spark or caseesndra
我在不同的服务器上有日志文件(5台服务器通过局域网连接),我需要处理并得到结果
- 每个节点都有 4TB 日志文件,我正在使用 HDFS 将所有日志文件加载到 Spark
- 每次当请求到来时,Spark 加载所有文件 (5 * 4TB) 然后用 Spark 查询 SQL
如果我将所有日志文件加载到 caseesndra 中然后查询(可以预加载)会怎么样?哪个是最快的方法..?
HDFS和Cassandra各有优势
如果您需要完全处理 所有 日志文件,HDFS 是更好的选择,因为它是一个 文件system,旨在存储大量数据并批量处理它们。
现在,如果您只需要处理 部分 日志文件,datastore 如 Cassandra 是一个更好的选择,因为您可以按主键过滤数据并更快地访问并跳过扫描所有文件。
Cassandra 是为 OLTP 工作负载设计的,而 HDFS 和 kind 是为 OLAP 设计的工作量
我在不同的服务器上有日志文件(5台服务器通过局域网连接),我需要处理并得到结果
- 每个节点都有 4TB 日志文件,我正在使用 HDFS 将所有日志文件加载到 Spark
- 每次当请求到来时,Spark 加载所有文件 (5 * 4TB) 然后用 Spark 查询 SQL
如果我将所有日志文件加载到 caseesndra 中然后查询(可以预加载)会怎么样?哪个是最快的方法..?
HDFS和Cassandra各有优势
如果您需要完全处理 所有 日志文件,HDFS 是更好的选择,因为它是一个 文件system,旨在存储大量数据并批量处理它们。
现在,如果您只需要处理 部分 日志文件,datastore 如 Cassandra 是一个更好的选择,因为您可以按主键过滤数据并更快地访问并跳过扫描所有文件。
Cassandra 是为 OLTP 工作负载设计的,而 HDFS 和 kind 是为 OLAP 设计的工作量