获取 1000 行 csv 的最后 5 行,RDD Spark Java
Get the last 5 lines of a 1000 line csv, RDD Spark Java
我有一个 .csv 文件,其中包含 1000 行数据,我正在尝试编写一行代码,仅显示最后 5 行数据。
private SparkSession spark;
private JavaSparkContext sc;
private JavaRDD<String> lines;
private JavaRDD<PurchaseOrder> orders;
public OrderProcessingRDDSparkApp(String ...args) throws IOException {
spark = SparkSession.builder().appName("OrderProcessingSparkApp").config("spark.master", "local[1]").getOrCreate();
sc = new JavaSparkContext(spark.sparkContext());
sc.setLogLevel("ERROR");
lines = sc.textFile(args[0]);
orders = lines.map( line -> new PurchaseOrder(line));
我该如何解决这个问题?
import scala.util.Random
val sorted = rdd.sortBy(_.apply(3).toInt) //sort asc or desc...
sorted.take(5) //get last 5...
您可以使用 Java 的方法。
可能是
我有一个 .csv 文件,其中包含 1000 行数据,我正在尝试编写一行代码,仅显示最后 5 行数据。
private SparkSession spark;
private JavaSparkContext sc;
private JavaRDD<String> lines;
private JavaRDD<PurchaseOrder> orders;
public OrderProcessingRDDSparkApp(String ...args) throws IOException {
spark = SparkSession.builder().appName("OrderProcessingSparkApp").config("spark.master", "local[1]").getOrCreate();
sc = new JavaSparkContext(spark.sparkContext());
sc.setLogLevel("ERROR");
lines = sc.textFile(args[0]);
orders = lines.map( line -> new PurchaseOrder(line));
我该如何解决这个问题?
import scala.util.Random
val sorted = rdd.sortBy(_.apply(3).toInt) //sort asc or desc...
sorted.take(5) //get last 5...
您可以使用 Java 的方法。
可能是