使用 Spark 将数据保存到 Cassandra
Using Spark to save data to Cassandra
现在在我当前的体系结构中,我有一个模块负责 writing/reading 数据进出 Cassandra,以及一个模块负责下载数据。最近我开始使用 Datastax 和 Spark。我想对新获取的数据进行一些转换。对这个问题的正确看法是什么?我是使用我的模块来存储数据并单独进行 Spark 计算,还是使用 Spark Streaming 将下载的数据直接发送到 Spark,并在作业中将原始数据和转换后的数据都保存到 Cassandra?我正在处理股票报价,因此需要不断下载大量数据并进行大量转换。
在我看来,还是分开存放比较好。
先存储原始数据再处理。
以后更容易扩展和维护每个组件。
例如:如果您想在下载模块中更改某些内容,例如添加新的下载源或修复错误,它不会影响在 spark 中完成的数据处理,并且更改代码中的某些内容 运行 on spark 不会对您下载的原始数据产生任何影响(或引入错误)。
现在在我当前的体系结构中,我有一个模块负责 writing/reading 数据进出 Cassandra,以及一个模块负责下载数据。最近我开始使用 Datastax 和 Spark。我想对新获取的数据进行一些转换。对这个问题的正确看法是什么?我是使用我的模块来存储数据并单独进行 Spark 计算,还是使用 Spark Streaming 将下载的数据直接发送到 Spark,并在作业中将原始数据和转换后的数据都保存到 Cassandra?我正在处理股票报价,因此需要不断下载大量数据并进行大量转换。
在我看来,还是分开存放比较好。
先存储原始数据再处理。
以后更容易扩展和维护每个组件。
例如:如果您想在下载模块中更改某些内容,例如添加新的下载源或修复错误,它不会影响在 spark 中完成的数据处理,并且更改代码中的某些内容 运行 on spark 不会对您下载的原始数据产生任何影响(或引入错误)。