读取 pySpark 中的文件范围

Read range of files in pySpark

我需要读取 pySpark 中的连续文件。以下对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何阅读文件 8-14?

它使用 shell 通配,我相信。

post:How to read multiple text files into a single RDD?

似乎建议以下应该有效。

"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"

使用大括号。

文件="events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

这里有一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议要么使用大括号,要么执行多次读取然后合并对象(无论它们是 RDD 还是数据帧或其他任何东西,都应该有某种方式)。