将 Scala Iterable[tuple] 转换为 RDD
Converting a Scala Iterable[tuple] to RDD
我有一个要转换为 Spark RDD 的元组列表(String、String、Int、Double)。
一般来说,如何将 Scala Iterable[(a1, a2, a3, ..., an)] 转换为 Spark RDD?
有几种方法可以做到这一点,但最直接的方法就是使用 Spark Context:
import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._
sc.parallelize(YourIterable.toList)
我认为 sc.Parallelize 需要转换为列表,但它会保留你的结构,因此你仍然会得到一个 RDD[String,String,Int,Double]
我有一个要转换为 Spark RDD 的元组列表(String、String、Int、Double)。
一般来说,如何将 Scala Iterable[(a1, a2, a3, ..., an)] 转换为 Spark RDD?
有几种方法可以做到这一点,但最直接的方法就是使用 Spark Context:
import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._
sc.parallelize(YourIterable.toList)
我认为 sc.Parallelize 需要转换为列表,但它会保留你的结构,因此你仍然会得到一个 RDD[String,String,Int,Double]