获取 1000 行 csv 的最后 5 行，RDD Spark Java

Question

我有一个 .csv 文件，其中包含 1000 行数据，我正在尝试编写一行代码，仅显示最后 5 行数据。

private SparkSession spark;
    private JavaSparkContext sc;
    private JavaRDD<String> lines;
    private JavaRDD<PurchaseOrder> orders;


public OrderProcessingRDDSparkApp(String ...args) throws IOException {
        spark = SparkSession.builder().appName("OrderProcessingSparkApp").config("spark.master", "local[1]").getOrCreate();
        sc = new JavaSparkContext(spark.sparkContext());
        sc.setLogLevel("ERROR");        
        lines = sc.textFile(args[0]);
        orders = lines.map( line -> new PurchaseOrder(line));

我该如何解决这个问题？

Answer 1

    import scala.util.Random    
    val sorted = rdd.sortBy(_.apply(3).toInt) //sort asc or desc...
    sorted.take(5) //get last 5...

您可以使用 Java 的方法。

可能是

获取 1000 行 csv 的最后 5 行，RDD Spark Java

Get the last 5 lines of a 1000 line csv, RDD Spark Java

java

dataframe

apache-spark

rdd