使用 Spark 或 caseesndra 查询日志文件的最佳方式

Best way to query the log files, with Spark or caseesndra

我在不同的服务器上有日志文件(5台服务器通过局域网连接),我需要处理并得到结果

如果我将所有日志文件加载到 caseesndra 中然后查询(可以预加载)会怎么样?哪个是最快的方法..?

HDFSCassandra各有优势

如果您需要完全处理 所有 日志文件,HDFS 是更好的选择,因为它是一个 文件system,旨在存储大量数据并批量处理它们。

现在,如果您只需要处理 部分 日志文件,datastoreCassandra 是一个更好的选择,因为您可以按主键过滤数据并更快地访问并跳过扫描所有文件。

Cassandra 是为 OLTP 工作负载设计的,而 HDFS 和 kind 是为 OLAP 设计的工作量