使用 Spark 将数据保存到 Cassandra

Using Spark to save data to Cassandra

现在在我当前的体系结构中，我有一个模块负责 writing/reading 数据进出 Cassandra，以及一个模块负责下载数据。最近我开始使用 Datastax 和 Spark。我想对新获取的数据进行一些转换。对这个问题的正确看法是什么？我是使用我的模块来存储数据并单独进行 Spark 计算，还是使用 Spark Streaming 将下载的数据直接发送到 Spark，并在作业中将原始数据和转换后的数据都保存到 Cassandra？我正在处理股票报价，因此需要不断下载大量数据并进行大量转换。

在我看来，还是分开存放比较好。

先存储原始数据再处理。
以后更容易扩展和维护每个组件。

例如：如果您想在下载模块中更改某些内容，例如添加新的下载源或修复错误，它不会影响在 spark 中完成的数据处理，并且更改代码中的某些内容运行 on spark 不会对您下载的原始数据产生任何影响（或引入错误）。

使用 Spark 将数据保存到 Cassandra

Using Spark to save data to Cassandra

java

cassandra

datastax

apache-spark

spark-streaming