如何将 Cassandra 设置为我的 Spark 集群的分布式存储（文件系统）

How to set Cassandra as my Distributed Storage(File System) for my Spark Cluster

我是大数据和 Spark(pyspark) 的新手。最近我刚刚设置了一个 spark 集群，想在我的 spark 集群上使用 Cassandra 文件系统 (CFS) 来帮助上传文件。

谁能告诉我怎么设置，并简单介绍一下CFS系统的使用方法？（比如如何上传文件/从哪里上传文件）

顺便说一句，我什至不知道如何使用 HDFS（我下载了预构建的 spark-bin-hadoop，但我在我的系统中找不到 hadoop。）

提前致谢！

CFS 仅存在于 DataStax Enterprise 中，不适用于大多数分布式文件应用程序。它的主要目标是作为 map/reduce 作业和小型临时分布式文件的 HDFS 替代品。

要使用它，您只需使用 CFS:// uri 并确保您使用的是应用程序中的 dse spark-submit。