将多个文件作为独立的 RDD 并行处理

Question

我有一个场景，其中必须对许多小文件（每个大约 300MB）应用一定数量的操作（包括分组依据）。操作看起来像这样..

df.groupBy(....).agg(....)

现在要在多个文件上处理它，我可以使用通配符“/**/*.csv”，但是它会创建一个 RDD 并将其分区以进行操作。但是，从操作上看，它是一个group by并且涉及很多shuffle，如果文件互斥，这是不必要的。

我正在研究的是一种可以在文件上创建独立 RDD 并独立操作它们的方法。

Answer 1

如果你有很多文件，并且每个文件都很小（你说 300MB 以上我认为对于 Spark 来说很小），你可以尝试使用 SparkContext.wholeTextFiles 这将创建一个 RDD，其中每条记录是一个整个文件。

Answer 2

与其说这是一个完整的解决方案，不如说是一个想法，我还没有测试过。

您可以从将数据处理管道提取到函数中开始。

def pipeline(f: String, n: Int) = {
    sqlContext
        .read
        .format("com.databricks.spark.csv")
        .option("header", "true")
        .load(f)
        .repartition(n)
        .groupBy(...)
        .agg(...)
        .cache // Cache so we can force computation later
}

如果您的文件很小，您可以调整 n 参数以使用尽可能少的分区来适应单个文件中的数据并避免混洗。这意味着您正在限制并发，但我们稍后会回到这个问题。

val n: Int = ???

接下来您必须获取输入文件列表。此步骤取决于数据源，但大多数情况下它或多或少是简单的：

val files: Array[String] = ???

接下来您可以使用 pipeline 函数映射上面的列表：

val rdds = files.map(f => pipeline(f, n))

由于我们在单个文件级别限制并发，因此我们希望通过提交多个作业来补偿。让我们添加一个简单的帮助程序，它强制评估并用 Future

包装它

import scala.concurrent._
import ExecutionContext.Implicits.global

def pipelineToFuture(df: org.apache.spark.sql.DataFrame) = future {
    df.rdd.foreach(_ => ()) // Force computation
    df
}

最后我们可以在 rdds 上使用上面的助手：

val result = Future.sequence(
   rdds.map(rdd => pipelineToFuture(rdd)).toList
)

根据您的要求，您可以添加 onComplete 回调或使用反应流来收集结果。

Answer 3

通过这种方式我们可以并行写入多个RDD

public class ParallelWriteSevice implements IApplicationEventListener {

    private static final IprogramLogger logger = programLoggerFactory.getLogger(ParallelWriteSevice.class);

    private static ExecutorService executorService=null;
    private static List<Future<Boolean>> futures=new ArrayList<Future<Boolean>>();

    public static void submit(Callable callable) {
        if(executorService==null)
        {
            executorService=Executors.newFixedThreadPool(15);//Based on target tables increase this
        }

        futures.add(executorService.submit(callable));
    }

    public static boolean isWriteSucess() {
        boolean writeFailureOccured = false;
        try {
            for (Future<Boolean> future : futures) {
                try {
                    Boolean writeStatus = future.get();
                    if (writeStatus == false) {
                        writeFailureOccured = true;
                    }
                } catch (Exception e) {
                    logger.error("Erorr - Scdeduled write failed " + e.getMessage(), e);
                    writeFailureOccured = true;
                }
            }
        } finally {
            resetFutures();         
              if (executorService != null) 
                  executorService.shutdown();
              executorService = null;

        }
        return !writeFailureOccured;
    }

    private static void resetFutures() {
            logger.error("resetFutures called");
            //futures.clear();
    }




}

将多个文件作为独立的 RDD 并行处理

Processing multiple files as independent RDD's in parallel

scala

apache-spark

apache-spark-sql