读取 pySpark 中的文件范围

Question

我需要读取 pySpark 中的连续文件。以下对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何阅读文件 8-14？

Answer 1

它使用 shell 通配，我相信。

post：How to read multiple text files into a single RDD?

似乎建议以下应该有效。

"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"

Answer 2

使用大括号。

文件="events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

这里有一个关于堆栈溢出的类似问题：Pyspark select subset of files using regex glob。他们建议要么使用大括号，要么执行多次读取然后合并对象（无论它们是 RDD 还是数据帧或其他任何东西，都应该有某种方式）。

Read range of files in pySpark