分布式任务执行工具

Tool for distributed task execution

仅将spark用于分布式任务执行是否有益。我有处理巨大数据集(从数据库读取、处理、写入数据库)的要求,但是完成的处理是行级的。这意味着我不需要 reduce 或机器学习。

对于这种需求,使用 spark 会不会有点矫枉过正。什么最适合这种要求。我不想编写将优化分发、处理故障、重试等的软件基础架构

Spark 更适合处理(真正的)大型数据集和内存。一种选择是使用任何开源 IMDG 并以类似的方式处理数据,但(可能)复杂性较低。

您还可以根据要使用的语言选择 IMDG 引擎。对于 .Net,您可以使用 NCache and for Java there are many but you could use TayzGrid