将 Scala Iterable[tuple] 转换为 RDD

Converting a Scala Iterable[tuple] to RDD

我有一个要转换为 Spark RDD 的元组列表(String、String、Int、Double)。

一般来说,如何将 Scala Iterable[(a1, a2, a3, ..., an)] 转换为 Spark RDD?

有几种方法可以做到这一点,但最直接的方法就是使用 Spark Context:

import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._

sc.parallelize(YourIterable.toList)

我认为 sc.Parallelize 需要转换为列表,但它会保留你的结构,因此你仍然会得到一个 RDD[String,String,Int,Double]