如何在 Spark 中将 RDD<String> 转换为 RDD<Vector>?

How to convert a RDD<String> to a RDD<Vector> in Spark?

我有一个文件,每一行都是这样的

info1,info2
info3,info4
...

扫描后,我想运行 k-means算法:

  val rawData = sc.textFile(myFile)
  val converted = convertToVector(rawData)
  val kmeans = new KMeans()
  kmeans.setK(10)
  kmeans.setRuns(10)
  kmeans.setEpsilon(1.0e-6)
  val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

因为 k-means 只接受 RDD<Vector>,我创建了一个函数将我的 RDD<String> rawData 转换为 RDD<Vector>。但我对如何执行此操作感到困惑,下面的这个功能正在进行中:

def converToVector(rawData: RDD[String]): RDD[Vector] = {

    //TODO...
    val toConvert = rawData.collect().toVector
    val map = rawData.map {
      line => line.split(",").toVector
    }

    map
  }

关于如何实现这一点有什么建议吗?

提前致谢。

这是一个非常基本的操作,因为您的输入文件的每一行都是一个由逗号分隔的字符串表示的假设向量。

您只需要映射每个字符串条目,在分隔符上拆分它,然后从中创建一个密集向量:

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))