使用 Spark 或 caseesndra 查询日志文件的最佳方式

Best way to query the log files, with Spark or caseesndra

我在不同的服务器上有日志文件（5台服务器通过局域网连接），我需要处理并得到结果

如果我将所有日志文件加载到 caseesndra 中然后查询（可以预加载）会怎么样？哪个是最快的方法..？

HDFS和Cassandra各有优势

如果您需要完全处理所有日志文件，HDFS 是更好的选择，因为它是一个 文件system，旨在存储大量数据并批量处理它们。

现在，如果您只需要处理部分日志文件，datastore 如 Cassandra 是一个更好的选择，因为您可以按主键过滤数据并更快地访问并跳过扫描所有文件。

Cassandra 是为 OLTP 工作负载设计的，而 HDFS 和 kind 是为 OLAP 设计的工作量