使用 Java 在 Spark 中映射
Mapping in Spark using Java
我有一个文件名 myFile,格式如下:
1,A,2,B
1,A,3,C
2,B,4,D
我想将每行的第二个索引值映射到该行本身:
A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D
如何使用 Spark Java 实现此目的?
您似乎正在阅读 CSV。自 Spark 2.x
以来,Spark 原生支持那些
不要使用 SparkContext 使用 SparkSession
只是为了打印一个数据框,你想要这样的东西
spark.csv("C:\myFile").show()
我就是这样实现的
JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));
我有一个文件名 myFile,格式如下:
1,A,2,B
1,A,3,C
2,B,4,D
我想将每行的第二个索引值映射到该行本身:
A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D
如何使用 Spark Java 实现此目的?
您似乎正在阅读 CSV。自 Spark 2.x
以来,Spark 原生支持那些不要使用 SparkContext 使用 SparkSession
只是为了打印一个数据框,你想要这样的东西
spark.csv("C:\myFile").show()
我就是这样实现的
JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));