如何将 Cassandra 设置为我的 Spark 集群的分布式存储(文件系统)

How to set Cassandra as my Distributed Storage(File System) for my Spark Cluster

我是大数据和 Spark(pyspark) 的新手。 最近我刚刚设置了一个 spark 集群,想在我的 spark 集群上使用 Cassandra 文件系统 (CFS) 来帮助上传文件。

谁能告诉我怎么设置,并简单介绍一下CFS系统的使用方法? (比如如何上传文件/从哪里上传文件)

顺便说一句,我什至不知道如何使用 HDFS(我下载了预构建的 spark-bin-hadoop,但我在我的系统中找不到 hadoop。)

提前致谢!

CFS 仅存在于 DataStax Enterprise 中,不适用于大多数分布式文件应用程序。它的主要目标是作为 map/reduce 作业和小型临时分布式文件的 HDFS 替代品。

要使用它,您只需使用 CFS:// uri 并确保您使用的是应用程序中的 dse spark-submit