Apache Spark:选择哪种数据存储和数据格式

Apache Spark: Which data storage and data format to choose

我打算用 Spark 编写一个销售分析应用程序。因此,我每晚都会得到一个包含新销售数据(前一天的销售数据)的增量数据集。稍后我想实现一些分析,如关联规则或产品受欢迎程度。

销售数据包含以下信息:

到目前为止,我在我的应用程序中使用了一个简单的 .textFile 方法和 RDD。我听说过有关 DataFrame 和 Parquet 的一些信息,这是一种类似于 table 的文本文件数据格式,对吧?将数据存储在数据库中一次(我在 Hadoop 集群中安装了 HBase)然后再阅读这个怎么样?

有人可以简要概述一下 Spark 中 save-/load-possibilities 的不同类型吗?并就此数据的用途提出建议?

实际数据量约为6GB,相当于3家门店1年左右的数据量。稍后我将处理 ~500 家商店的数据和 ~5 年的时间段。

您可以使用 spark 毫无问题地处理该数据。您也可以从 csv 文件中读取(databricks 中有一个支持 csv 的库)。你可以操纵它,从 rdd 到将它变成数据框更近一步。您可以将最终数据帧直接放入 HBASE。 您可以在此处找到所有需要的文档: http://spark.apache.org/docs/latest/sql-programming-guide.html https://www.mapr.com/blog/spark-streaming-hbase

干杯, 亚历克斯