Spark 1.6 DirectFileOutputCommitter

java
hadoop
amazon-s3
apache-spark
pyspark

我在使用 pyspark 将文本文件保存到 S3 时遇到问题。我能够保存到 S3，但它首先上传到 S3 上的 _temporary，然后继续复制到预期位置。这会显着增加作业运行时间。我试图编译一个 DirectFileOutputComitter，它应该直接写入预期的 S3 url，但我无法让 Spark 使用这个 class.

示例：

someRDD.saveAsTextFile("s3a://somebucket/savefolder")

这会创建一个

s3a://somebucket/savefolder/_temporary/

随后写入的目录，之后 S3 复制操作将文件移回

s3a://somebucket/savefolder

我的问题是是否有人拥有 DirectFileOutputCommiter 的工作 jar，或者是否有人有解决此问题的经验。

Spark 1.6 DirectFileOutputCommitter

Spark 1.6 DirectFileOutputCommitter

java

hadoop

amazon-s3

apache-spark

pyspark