如何通过pyspark以gzip格式保存spark RDD
How to save a spark RDD in gzip format through pyspark
所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(gz格式)并保存而不是将其另存为文本文件
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
saveAsTextFile
方法采用可选参数,指定压缩编解码器 class:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(gz格式)并保存而不是将其另存为文本文件
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
saveAsTextFile
方法采用可选参数,指定压缩编解码器 class:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)