从多个来源创建单个 Spark Dataframe?

Creating a single Spark Dataframe from multiple sources?

可以从外部文件创建 Spark 中的数据框。有没有办法使用多个文件来创建一个对象?

例如: 如果我说的是记录相同数据的 csv 文件或 parquet 文件(比如在一周中某天购买的商品的数量)。有没有一种方法可以从每天的文件中初始化单个数据框,以获得代表一周购买数据的单个数据框?

spark 从文件读取输入的方式取决于底层 Hadoop API。这意味着它们经常扩展相同的用途,包括能够处理压缩文件或多个文件。

在您的情况下,您只需使用通配符或以逗号分隔来提供文件输入。参见 How to read multiple text files into a single RDD?