读取 pySpark 中的文件范围
Read range of files in pySpark
我需要读取 pySpark 中的连续文件。以下对我有用。
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
如何阅读文件 8-14?
它使用 shell 通配,我相信。
post:How to read multiple text files into a single RDD?
似乎建议以下应该有效。
"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"
使用大括号。
文件="events.parquet/exportDay=201509{08,09,10,11,12,13,14}"
这里有一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议要么使用大括号,要么执行多次读取然后合并对象(无论它们是 RDD 还是数据帧或其他任何东西,都应该有某种方式)。
我需要读取 pySpark 中的连续文件。以下对我有用。
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
如何阅读文件 8-14?
它使用 shell 通配,我相信。
post:How to read multiple text files into a single RDD?
似乎建议以下应该有效。
"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"
使用大括号。
文件="events.parquet/exportDay=201509{08,09,10,11,12,13,14}"
这里有一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议要么使用大括号,要么执行多次读取然后合并对象(无论它们是 RDD 还是数据帧或其他任何东西,都应该有某种方式)。