将多个文件作为独立的 RDD 并行处理
Processing multiple files as independent RDD's in parallel
我有一个场景,其中必须对许多小文件(每个大约 300MB)应用一定数量的操作(包括分组依据)。操作看起来像这样..
df.groupBy(....).agg(....)
现在要在多个文件上处理它,我可以使用通配符“/**/*.csv”,但是它会创建一个 RDD 并将其分区以进行操作。但是,从操作上看,它是一个group by并且涉及很多shuffle,如果文件互斥,这是不必要的。
我正在研究的是一种可以在文件上创建独立 RDD 并独立操作它们的方法。
如果你有很多文件,并且每个文件都很小(你说 300MB 以上我认为对于 Spark 来说很小),你可以尝试使用 SparkContext.wholeTextFiles
这将创建一个 RDD,其中每条记录是一个整个文件。
与其说这是一个完整的解决方案,不如说是一个想法,我还没有测试过。
您可以从将数据处理管道提取到函数中开始。
def pipeline(f: String, n: Int) = {
sqlContext
.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load(f)
.repartition(n)
.groupBy(...)
.agg(...)
.cache // Cache so we can force computation later
}
如果您的文件很小,您可以调整 n
参数以使用尽可能少的分区来适应单个文件中的数据并避免混洗。这意味着您正在限制并发,但我们稍后会回到这个问题。
val n: Int = ???
接下来您必须获取输入文件列表。此步骤取决于数据源,但大多数情况下它或多或少是简单的:
val files: Array[String] = ???
接下来您可以使用 pipeline
函数映射上面的列表:
val rdds = files.map(f => pipeline(f, n))
由于我们在单个文件级别限制并发,因此我们希望通过提交多个作业来补偿。让我们添加一个简单的帮助程序,它强制评估并用 Future
包装它
import scala.concurrent._
import ExecutionContext.Implicits.global
def pipelineToFuture(df: org.apache.spark.sql.DataFrame) = future {
df.rdd.foreach(_ => ()) // Force computation
df
}
最后我们可以在 rdds
上使用上面的助手:
val result = Future.sequence(
rdds.map(rdd => pipelineToFuture(rdd)).toList
)
根据您的要求,您可以添加 onComplete
回调或使用反应流来收集结果。
通过这种方式我们可以并行写入多个RDD
public class ParallelWriteSevice implements IApplicationEventListener {
private static final IprogramLogger logger = programLoggerFactory.getLogger(ParallelWriteSevice.class);
private static ExecutorService executorService=null;
private static List<Future<Boolean>> futures=new ArrayList<Future<Boolean>>();
public static void submit(Callable callable) {
if(executorService==null)
{
executorService=Executors.newFixedThreadPool(15);//Based on target tables increase this
}
futures.add(executorService.submit(callable));
}
public static boolean isWriteSucess() {
boolean writeFailureOccured = false;
try {
for (Future<Boolean> future : futures) {
try {
Boolean writeStatus = future.get();
if (writeStatus == false) {
writeFailureOccured = true;
}
} catch (Exception e) {
logger.error("Erorr - Scdeduled write failed " + e.getMessage(), e);
writeFailureOccured = true;
}
}
} finally {
resetFutures();
if (executorService != null)
executorService.shutdown();
executorService = null;
}
return !writeFailureOccured;
}
private static void resetFutures() {
logger.error("resetFutures called");
//futures.clear();
}
}
我有一个场景,其中必须对许多小文件(每个大约 300MB)应用一定数量的操作(包括分组依据)。操作看起来像这样..
df.groupBy(....).agg(....)
现在要在多个文件上处理它,我可以使用通配符“/**/*.csv”,但是它会创建一个 RDD 并将其分区以进行操作。但是,从操作上看,它是一个group by并且涉及很多shuffle,如果文件互斥,这是不必要的。
我正在研究的是一种可以在文件上创建独立 RDD 并独立操作它们的方法。
如果你有很多文件,并且每个文件都很小(你说 300MB 以上我认为对于 Spark 来说很小),你可以尝试使用 SparkContext.wholeTextFiles
这将创建一个 RDD,其中每条记录是一个整个文件。
与其说这是一个完整的解决方案,不如说是一个想法,我还没有测试过。
您可以从将数据处理管道提取到函数中开始。
def pipeline(f: String, n: Int) = {
sqlContext
.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load(f)
.repartition(n)
.groupBy(...)
.agg(...)
.cache // Cache so we can force computation later
}
如果您的文件很小,您可以调整 n
参数以使用尽可能少的分区来适应单个文件中的数据并避免混洗。这意味着您正在限制并发,但我们稍后会回到这个问题。
val n: Int = ???
接下来您必须获取输入文件列表。此步骤取决于数据源,但大多数情况下它或多或少是简单的:
val files: Array[String] = ???
接下来您可以使用 pipeline
函数映射上面的列表:
val rdds = files.map(f => pipeline(f, n))
由于我们在单个文件级别限制并发,因此我们希望通过提交多个作业来补偿。让我们添加一个简单的帮助程序,它强制评估并用 Future
import scala.concurrent._
import ExecutionContext.Implicits.global
def pipelineToFuture(df: org.apache.spark.sql.DataFrame) = future {
df.rdd.foreach(_ => ()) // Force computation
df
}
最后我们可以在 rdds
上使用上面的助手:
val result = Future.sequence(
rdds.map(rdd => pipelineToFuture(rdd)).toList
)
根据您的要求,您可以添加 onComplete
回调或使用反应流来收集结果。
通过这种方式我们可以并行写入多个RDD
public class ParallelWriteSevice implements IApplicationEventListener {
private static final IprogramLogger logger = programLoggerFactory.getLogger(ParallelWriteSevice.class);
private static ExecutorService executorService=null;
private static List<Future<Boolean>> futures=new ArrayList<Future<Boolean>>();
public static void submit(Callable callable) {
if(executorService==null)
{
executorService=Executors.newFixedThreadPool(15);//Based on target tables increase this
}
futures.add(executorService.submit(callable));
}
public static boolean isWriteSucess() {
boolean writeFailureOccured = false;
try {
for (Future<Boolean> future : futures) {
try {
Boolean writeStatus = future.get();
if (writeStatus == false) {
writeFailureOccured = true;
}
} catch (Exception e) {
logger.error("Erorr - Scdeduled write failed " + e.getMessage(), e);
writeFailureOccured = true;
}
}
} finally {
resetFutures();
if (executorService != null)
executorService.shutdown();
executorService = null;
}
return !writeFailureOccured;
}
private static void resetFutures() {
logger.error("resetFutures called");
//futures.clear();
}
}