在 Spark 中写入指定的 Parquet 文件名
Write to a specified Parquet filename in Spark
我正在使用 SparkR
,我想将 write.df
用作特定文件夹:
write.df(my.sdf,path='/path/to/folder/',source='parquet')
理想情况下,我想指定一个完整的路径名,即 /path/to/folder/this_parquet_file.parquet.gz
这可能吗?
简而言之:没有
您可以使用 coalesce(1)
来减少 parquet 文件夹中的文件数量,仅此而已。写入执行程序的输出总是会产生多个文件,因为它是为扩展而设计的。
我正在使用 SparkR
,我想将 write.df
用作特定文件夹:
write.df(my.sdf,path='/path/to/folder/',source='parquet')
理想情况下,我想指定一个完整的路径名,即 /path/to/folder/this_parquet_file.parquet.gz
这可能吗?
简而言之:没有
您可以使用 coalesce(1)
来减少 parquet 文件夹中的文件数量,仅此而已。写入执行程序的输出总是会产生多个文件,因为它是为扩展而设计的。