使用 Java 在 Spark 中映射

Mapping in Spark using Java

我有一个文件名 myFile,格式如下:

1,A,2,B
1,A,3,C
2,B,4,D

我想将每行的第二个索引值映射到该行本身:

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用 Spark Java 实现此目的?

您似乎正在阅读 CSV。自 Spark 2.x

以来,Spark 原生支持那些

不要使用 SparkContext 使用 SparkSession

只是为了打印一个数据框,你想要这样的东西

spark.csv("C:\myFile").show()

我就是这样实现的

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));